NVIDIA-NeMo · meatybobby · Feb 4, 2026 · Jan 30, 2026 · Feb 2, 2026 · Feb 2, 2026
diff --git a/src/megatron/bridge/inference/vlm/base.py b/src/megatron/bridge/inference/vlm/base.py
@@ -131,6 +131,8 @@ def setup_inference_wrapper(
         wrapper_cls = QwenVLInferenceWrapper
         if isinstance(config, Qwen25VLModelProvider):
             hidden_size = config.hidden_size
+            # Expose decoder for MCore Infernce Engine compatibility (used by get_mamba_inference_state_config_from_model)
+            mcore_model.module.decoder = mcore_model.module.language_model.decoder
         else:
             hidden_size = config.language_transformer_config.hidden_size
     else:

diff --git a/src/megatron/bridge/models/qwen_vl/modeling_qwen25_vl.py b/src/megatron/bridge/models/qwen_vl/modeling_qwen25_vl.py
@@ -111,9 +111,6 @@ def __init__(
         self.share_embeddings_and_output_weights = config.share_embeddings_and_output_weights
         self.shared_embedding_or_output_weight = self.language_model.shared_embedding_or_output_weight
 
-        # Expose decoder for MCore Infernce Engine compatibility (used by get_mamba_inference_state_config_from_model)
-        self.decoder = self.language_model.decoder
-
         # Bind methods from HF's Qwen2_5_VLModel to this instance
         # get_placeholder_mask is only available in transformers 4.55+
         if is_transformers_min_version("4.55.0"):