vllm-project · TaffyOfficial · May 27, 2026 · May 29, 2026 · May 29, 2026 · Bounty-hunter
@@ -53,7 +53,7 @@ def _get_config_file_from_argv() -> str | None:
 BENCHMARK_CONFIGS = load_configs(CONFIG_FILE_PATH)
 
 
-DEPLOY_CONFIGS_DIR = Path(__file__).parent.parent / "deploy"
+DEPLOY_CONFIGS_DIR = Path(__file__).resolve().parent.parent.parent.parent.parent / "vllm_omni" / "deploy"
 test_params = create_unique_server_params(BENCHMARK_CONFIGS, DEPLOY_CONFIGS_DIR)
 server_to_benchmark_mapping = create_test_parameter_mapping(BENCHMARK_CONFIGS)
 

@@ -5,12 +5,29 @@
         "server_type": "vllm-omni",
         "server_params": {
             "model": "tencent/HunyuanImage-3.0-Instruct",
+            "stage_config_name": "hunyuan_image3_dit.yaml",
+            "stage_overrides": {
+                "0": {
+                    "parallel_config": {
+                        "pipeline_parallel_size": 1,
+                        "data_parallel_size": 1,
+                        "tensor_parallel_size": 2,
+                        "enable_expert_parallel": true,
+                        "sequence_parallel_size": 1,
+                        "ulysses_degree": 1,
+                        "ring_degree": 1,
+                        "cfg_parallel_size": 2,
+                        "vae_patch_parallel_size": 1,
+                        "use_hsdp": false,
+                        "hsdp_shard_size": -1,
+                        "hsdp_replicate_size": 1
+                    }
+                }
+            },
             "serve_args": {
-                "tensor-parallel-size": 2,
-                "cfg-parallel-size": 2,
                 "quantization": "fp8",
                 "distributed-executor-backend": "mp",
-                "enforce-eager": true,
+                "trust-remote-code": true,
                 "enable-diffusion-pipeline-profiler": true
             }
         },

@@ -5,12 +5,29 @@
         "server_type": "vllm-omni",
         "server_params": {
             "model": "tencent/HunyuanImage-3.0-Instruct",
+            "stage_config_name": "hunyuan_image3_dit.yaml",
+            "stage_overrides": {
+                "0": {
+                    "parallel_config": {
+                        "pipeline_parallel_size": 1,
+                        "data_parallel_size": 1,
+                        "tensor_parallel_size": 2,
+                        "enable_expert_parallel": true,
+                        "sequence_parallel_size": 2,
+                        "ulysses_degree": 2,
+                        "ring_degree": 1,
+                        "cfg_parallel_size": 1,
+                        "vae_patch_parallel_size": 1,
+                        "use_hsdp": false,
+                        "hsdp_shard_size": -1,
+                        "hsdp_replicate_size": 1
+                    }
+                }
+            },
             "serve_args": {
-                "tensor-parallel-size": 2,
-                "usp": 2,
                 "quantization": "fp8",
                 "distributed-executor-backend": "mp",
-                "enforce-eager": true,
+                "trust-remote-code": true,
                 "enable-diffusion-pipeline-profiler": true
             }
         },

@@ -5,11 +5,11 @@
         "server_type": "vllm-omni",
         "server_params": {
             "model": "tencent/HunyuanImage-3.0-Instruct",
+            "stage_config_name": "hunyuan_image3_dit.yaml",
             "serve_args": {
-                "tensor-parallel-size": 4,
                 "quantization": "fp8",
                 "distributed-executor-backend": "mp",
-                "enforce-eager": true,
+                "trust-remote-code": true,
                 "enable-diffusion-pipeline-profiler": true
             }
         },

@@ -45,9 +45,13 @@ class Conversation:
 
 
 class TokenizerWrapper:
-    def __init__(self, tokenizer):
+    def __init__(self, tokenizer, *, trust_remote_code: bool = False, revision: str | None = None):
         if isinstance(tokenizer, str):
-            self.tokenizer = AutoTokenizer.from_pretrained(tokenizer)
+            self.tokenizer = AutoTokenizer.from_pretrained(
+                tokenizer,
+                revision=revision,
+                trust_remote_code=trust_remote_code,
+            )
         else:
             self.tokenizer = tokenizer
 

@@ -351,7 +351,11 @@ def __init__(self, od_config: OmniDiffusionConfig) -> None:
         self.vae = DistributedAutoencoderKLHunyuan.from_config(self.hf_config.vae)
         self.vae.use_spatial_tiling = self.od_config.vae_use_tiling
         self._pipeline = None
-        self._tkwrapper = TokenizerWrapper(od_config.model)
+        self._tkwrapper = TokenizerWrapper(
+            od_config.model,
+            revision=od_config.revision,
+            trust_remote_code=od_config.trust_remote_code,
+        )
         self.image_processor = HunyuanImage3ImageProcessor(self.hf_config)
         self.vision_model = Siglip2VisionTransformer(self.hf_config.vit)
         # self.vision_model = vision_model.vision_model