feat: add vllm aggregated multinode deployment example

eric-liu-nvidia · eric-liu-nvidia · commit 2fb6ffb971bf · 2025-08-19T16:05:14.000-07:00
Signed-off-by: Eric Liu &lt;zengyuanl@nvidia.com&gt;
diff --git a/components/backends/vllm/deploy/agg-multinode.yaml b/components/backends/vllm/deploy/agg-multinode.yaml
@@ -0,0 +1,38 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+
+apiVersion: nvidia.com/v1alpha1
+kind: DynamoGraphDeployment
+metadata:
+  name: vllm-mul
+spec:
+  services:
+    Frontend:
+      dynamoNamespace: vllm-mul
+      componentType: frontend
+      replicas: 1
+      extraPodSpec:
+        mainContainer:
+          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:0.4.0
+          workingDir: /workspace/components/backends/vllm
+          command:
+            - /bin/sh
+            - -c
+          args:
+            - "python3 -m dynamo.frontend --http-port 8000"
+    VllmDecodeWorker:
+      multinode:
+        nodeCount: 2
+      envFromSecret: hf-token-secret
+      dynamoNamespace: vllm-mul
+      componentType: worker
+      replicas: 1
+      extraPodSpec:
+        mainContainer:
+          image: nvcr.io/nvidia/ai-dynamo/vllm-runtime:0.4.0
+          workingDir: /workspace/components/backends/vllm
+          command:
+            - /bin/sh
+            - -c
+          args:
+            - python3 -m dynamo.vllm --model Qwen/Qwen3-0.6B --tensor-parallel-size 2 --no-kv-transfer-config