address comments

brb-nv · brb-nv · commit 5fd27f3513d1 · 2025-07-31T05:30:01.000Z
diff --git a/tensorrt_llm/_torch/models/modeling_gemma3.py b/tensorrt_llm/_torch/models/modeling_gemma3.py
@@ -164,21 +164,22 @@ def __init__(self, model_config: ModelConfig[Gemma3TextConfig]):
         self.hidden_size = self.config.hidden_size
         self.intermediate_size = self.config.intermediate_size
         self.dtype = self.config.torch_dtype
+        self.quant_config = model_config.get_quant_config()
         self.gate_proj = Linear(self.hidden_size,
                                 self.intermediate_size,
                                 bias=False,
                                 dtype=self.dtype,
-                                quant_config=model_config.get_quant_config())
+                                quant_config=self.quant_config)
         self.up_proj = Linear(self.hidden_size,
                               self.intermediate_size,
                               bias=False,
                               dtype=self.dtype,
-                              quant_config=model_config.get_quant_config())
+                              quant_config=self.quant_config)
         self.down_proj = Linear(self.intermediate_size,
                                 self.hidden_size,
                                 bias=False,
                                 dtype=self.dtype,
-                                quant_config=model_config.get_quant_config())
+                                quant_config=self.quant_config)
         self.act_fn = ACT2FN[self.config.hidden_activation]
 
     @torch.inference_mode()
diff --git a/tests/integration/defs/accuracy/test_llm_api_pytorch.py b/tests/integration/defs/accuracy/test_llm_api_pytorch.py
@@ -612,7 +612,7 @@ def test_fp8_prequantized(self):
         kv_cache_config = KvCacheConfig(enable_block_reuse=False,
                                         enable_partial_reuse=False,
                                         dtype="fp8")
-        prequantized_model_path = "/home/bbuddharaju/scratch/random/hf_models/gemma-3-1b-it-fp8/"
+        prequantized_model_path = f"{llm_models_root()}/gemma/gemma-3-1b-it-fp8/"
         with LLM(prequantized_model_path,
                  kv_cache_config=kv_cache_config) as llm:
             assert llm.args.quant_config.quant_algo == QuantAlgo.FP8