From 3ee23baa5e3a04b8f7aad427c3d80cd0cc1d4679 Mon Sep 17 00:00:00 2001
From: Andreas Karatzas <akaratza@amd.com>
Date: Thu, 19 Mar 2026 18:33:11 -0500
Subject: [PATCH 1/5] [ROCm][CI] Fix accuracy for llama-nemotron-vl pooling
 tests

Signed-off-by: Andreas Karatzas <akaratza@amd.com>
---
 tests/models/multimodal/conftest.py           | 29 +++++++++++++++++--
 .../pooling/test_llama_nemotron_vl.py         |  6 ++++
 2 files changed, 32 insertions(+), 3 deletions(-)

diff --git a/tests/models/multimodal/conftest.py b/tests/models/multimodal/conftest.py
index d00c3df786dc..966fc6fca495 100644
--- a/tests/models/multimodal/conftest.py
+++ b/tests/models/multimodal/conftest.py
@@ -50,20 +50,43 @@ def pytest_collection_modifyitems(config, items):
     )
 
 
+def _patch_encoder_layers(encoder):
+    """Set _attn_implementation='sdpa' on all encoder self_attn layers."""
+    for layer in encoder.layers:
+        if hasattr(layer, "self_attn"):
+            attn = layer.self_attn
+            for cfg_attr in ("vision_config", "config"):
+                cfg = getattr(attn, cfg_attr, None)
+                if cfg is not None and hasattr(cfg, "_attn_implementation"):
+                    cfg._attn_implementation = "sdpa"
+                    break
+
+
 def patch_hf_vision_attn_for_rocm(model):
     """Force SDPA for HF vision encoders on ROCm.
 
     HF's flash_attention_2 has accuracy issues on ROCm that bypass
     torch.backends.cuda settings. This forces SDPA which then uses
     math_sdp via the pytest_collection_modifyitems settings.
+
+    Supports both Isaac-style models (vision_embedding) and
+    SigLIP-based models like Nemotron VL (vision_model).
     """
     if not current_platform.is_rocm():
         return
 
     inner = getattr(model, "model", model)
 
+    # Isaac-style: inner.vision_embedding[0].encoder
     if hasattr(inner, "vision_embedding"):
         vit = inner.vision_embedding[0]
-        for layer in vit.encoder.layers:
-            if hasattr(layer, "self_attn"):
-                layer.self_attn.vision_config._attn_implementation = "sdpa"
+        _patch_encoder_layers(vit.encoder)
+
+    # SigLIP-based (e.g. Nemotron VL): inner.vision_model.vision_model.encoder
+    # or inner.vision_model.encoder
+    if hasattr(inner, "vision_model"):
+        vm = inner.vision_model
+        # SiglipVisionModel wraps SiglipVisionTransformer as .vision_model
+        vm_inner = getattr(vm, "vision_model", vm)
+        if hasattr(vm_inner, "encoder"):
+            _patch_encoder_layers(vm_inner.encoder)
diff --git a/tests/models/multimodal/pooling/test_llama_nemotron_vl.py b/tests/models/multimodal/pooling/test_llama_nemotron_vl.py
index 4c92d41c31db..b930a77b8215 100644
--- a/tests/models/multimodal/pooling/test_llama_nemotron_vl.py
+++ b/tests/models/multimodal/pooling/test_llama_nemotron_vl.py
@@ -24,6 +24,8 @@
 from vllm.entrypoints.pooling.score.utils import ScoreMultiModalParam
 
 from ....conftest import IMAGE_ASSETS, HfRunner, PromptImageInput, VllmRunner
+from ....utils import ROCM_ENGINE_KWARGS
+from ...conftest import patch_hf_vision_attn_for_rocm
 from ...utils import check_embeddings_close
 
 # Prefixes used by the model API
@@ -70,11 +72,13 @@ def _run_test(
         max_model_len=2048,
         enforce_eager=True,
         trust_remote_code=True,
+        **ROCM_ENGINE_KWARGS,
     ) as vllm_model:
         vllm_outputs = vllm_model.embed(input_texts, images=input_images)
 
     # Run HF inference using the model's encode_queries/encode_documents API
     with hf_runner(model, dtype=dtype, auto_cls=AutoModel) as hf_model:
+        patch_hf_vision_attn_for_rocm(hf_model.model)
         hf_outputs = []
         for text, image in zip(input_texts, input_images):
             with torch.inference_mode():
@@ -207,6 +211,7 @@ def _run_hf_reranker(
         trust_remote_code=True,
         auto_cls=AutoModelForSequenceClassification,
     ) as hf_model:
+        patch_hf_vision_attn_for_rocm(hf_model.model)
         processor = AutoProcessor.from_pretrained(
             model,
             trust_remote_code=True,
@@ -250,6 +255,7 @@ def _run_vllm_reranker(
         max_model_len=2048,
         enforce_eager=True,
         trust_remote_code=True,
+        **ROCM_ENGINE_KWARGS,
     ) as vllm_model:
         has_images = any(img is not None for _, img in docs)
 

From 3d14ac67b6fe9989dea21852edfe794fe24820f8 Mon Sep 17 00:00:00 2001
From: Andreas Karatzas <akaratza@amd.com>
Date: Thu, 19 Mar 2026 18:39:01 -0500
Subject: [PATCH 2/5] [ROCm][CI] Fix accuracy for llama-nemotron-vl pooling
 tests

Signed-off-by: Andreas Karatzas <akaratza@amd.com>
---
 tests/models/multimodal/pooling/test_llama_nemotron_vl.py | 7 ++++++-
 1 file changed, 6 insertions(+), 1 deletion(-)

diff --git a/tests/models/multimodal/pooling/test_llama_nemotron_vl.py b/tests/models/multimodal/pooling/test_llama_nemotron_vl.py
index b930a77b8215..58413a3db0df 100644
--- a/tests/models/multimodal/pooling/test_llama_nemotron_vl.py
+++ b/tests/models/multimodal/pooling/test_llama_nemotron_vl.py
@@ -22,6 +22,7 @@
     ChatCompletionContentPartTextParam,
 )
 from vllm.entrypoints.pooling.score.utils import ScoreMultiModalParam
+from vllm.platforms import current_platform
 
 from ....conftest import IMAGE_ASSETS, HfRunner, PromptImageInput, VllmRunner
 from ....utils import ROCM_ENGINE_KWARGS
@@ -328,8 +329,12 @@ def _run_reranker_test(
     assert len(hf_scores) == len(vllm_scores), (
         f"Output length mismatch: HF={len(hf_scores)}, vLLM={len(vllm_scores)}"
     )
+
+    # NOTE: ROCm shows slightly higher numerical variance dues to different attention
+    # backend between vLLM and HF; use a marginally looser tolerance
+    rel_tol = 0.022 if current_platform.is_rocm() else 0.02
     for i, (hf_score, vllm_score) in enumerate(zip(hf_scores, vllm_scores)):
-        assert hf_score == pytest.approx(vllm_score, rel=0.02), (
+        assert hf_score == pytest.approx(vllm_score, rel=rel_tol), (
             f"Score mismatch at index {i}: HF={hf_score:.4f}, vLLM={vllm_score:.4f}"
         )
 

From a435a5187afa41dc660c7b7b9789a4af74831994 Mon Sep 17 00:00:00 2001
From: Andreas Karatzas <akaratza@amd.com>
Date: Thu, 19 Mar 2026 18:47:29 -0500
Subject: [PATCH 3/5] [ROCm][CI] Fix accuracy for llama-nemotron-vl pooling
 tests

Signed-off-by: Andreas Karatzas <akaratza@amd.com>
---
 tests/models/multimodal/conftest.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/tests/models/multimodal/conftest.py b/tests/models/multimodal/conftest.py
index 966fc6fca495..e36acde41c7c 100644
--- a/tests/models/multimodal/conftest.py
+++ b/tests/models/multimodal/conftest.py
@@ -78,9 +78,10 @@ def patch_hf_vision_attn_for_rocm(model):
     inner = getattr(model, "model", model)
 
     # Isaac-style: inner.vision_embedding[0].encoder
-    if hasattr(inner, "vision_embedding"):
+    if hasattr(inner, "vision_embedding") and inner.vision_embedding:
         vit = inner.vision_embedding[0]
-        _patch_encoder_layers(vit.encoder)
+        if hasattr(vit, "encoder"):
+            _patch_encoder_layers(vit.encoder)
 
     # SigLIP-based (e.g. Nemotron VL): inner.vision_model.vision_model.encoder
     # or inner.vision_model.encoder

From d903429d49de1e04b029f251e1494d3db22a8d77 Mon Sep 17 00:00:00 2001
From: Andreas Karatzas <akaratza@amd.com>
Date: Fri, 20 Mar 2026 01:09:47 -0500
Subject: [PATCH 4/5] [Bugfix] Fix conftest path

Signed-off-by: Andreas Karatzas <akaratza@amd.com>
---
 tests/models/multimodal/pooling/test_llama_nemotron_vl.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/models/multimodal/pooling/test_llama_nemotron_vl.py b/tests/models/multimodal/pooling/test_llama_nemotron_vl.py
index 58413a3db0df..b1f6d39f0124 100644
--- a/tests/models/multimodal/pooling/test_llama_nemotron_vl.py
+++ b/tests/models/multimodal/pooling/test_llama_nemotron_vl.py
@@ -17,6 +17,7 @@
 import torch
 from transformers import AutoModel, AutoModelForSequenceClassification, AutoProcessor
 
+from tests.models.multimodal.conftest import patch_hf_vision_attn_for_rocm
 from vllm.entrypoints.chat_utils import (
     ChatCompletionContentPartImageParam,
     ChatCompletionContentPartTextParam,
@@ -26,7 +27,6 @@
 
 from ....conftest import IMAGE_ASSETS, HfRunner, PromptImageInput, VllmRunner
 from ....utils import ROCM_ENGINE_KWARGS
-from ...conftest import patch_hf_vision_attn_for_rocm
 from ...utils import check_embeddings_close
 
 # Prefixes used by the model API

From 45bdbbc70a25514e621143827c8a0f757cfdd3df Mon Sep 17 00:00:00 2001
From: Andreas Karatzas <akaratza@amd.com>
Date: Fri, 20 Mar 2026 10:39:08 -0500
Subject: [PATCH 5/5] [ROCm][CI] Fix accuracy for llama-nemotron-vl pooling
 tests

Signed-off-by: Andreas Karatzas <akaratza@amd.com>
---
 tests/models/multimodal/conftest.py           | 32 +++----------------
 .../pooling/test_llama_nemotron_vl.py         |  4 ---
 2 files changed, 4 insertions(+), 32 deletions(-)

diff --git a/tests/models/multimodal/conftest.py b/tests/models/multimodal/conftest.py
index e36acde41c7c..d00c3df786dc 100644
--- a/tests/models/multimodal/conftest.py
+++ b/tests/models/multimodal/conftest.py
@@ -50,44 +50,20 @@ def pytest_collection_modifyitems(config, items):
     )
 
 
-def _patch_encoder_layers(encoder):
-    """Set _attn_implementation='sdpa' on all encoder self_attn layers."""
-    for layer in encoder.layers:
-        if hasattr(layer, "self_attn"):
-            attn = layer.self_attn
-            for cfg_attr in ("vision_config", "config"):
-                cfg = getattr(attn, cfg_attr, None)
-                if cfg is not None and hasattr(cfg, "_attn_implementation"):
-                    cfg._attn_implementation = "sdpa"
-                    break
-
-
 def patch_hf_vision_attn_for_rocm(model):
     """Force SDPA for HF vision encoders on ROCm.
 
     HF's flash_attention_2 has accuracy issues on ROCm that bypass
     torch.backends.cuda settings. This forces SDPA which then uses
     math_sdp via the pytest_collection_modifyitems settings.
-
-    Supports both Isaac-style models (vision_embedding) and
-    SigLIP-based models like Nemotron VL (vision_model).
     """
     if not current_platform.is_rocm():
         return
 
     inner = getattr(model, "model", model)
 
-    # Isaac-style: inner.vision_embedding[0].encoder
-    if hasattr(inner, "vision_embedding") and inner.vision_embedding:
+    if hasattr(inner, "vision_embedding"):
         vit = inner.vision_embedding[0]
-        if hasattr(vit, "encoder"):
-            _patch_encoder_layers(vit.encoder)
-
-    # SigLIP-based (e.g. Nemotron VL): inner.vision_model.vision_model.encoder
-    # or inner.vision_model.encoder
-    if hasattr(inner, "vision_model"):
-        vm = inner.vision_model
-        # SiglipVisionModel wraps SiglipVisionTransformer as .vision_model
-        vm_inner = getattr(vm, "vision_model", vm)
-        if hasattr(vm_inner, "encoder"):
-            _patch_encoder_layers(vm_inner.encoder)
+        for layer in vit.encoder.layers:
+            if hasattr(layer, "self_attn"):
+                layer.self_attn.vision_config._attn_implementation = "sdpa"
diff --git a/tests/models/multimodal/pooling/test_llama_nemotron_vl.py b/tests/models/multimodal/pooling/test_llama_nemotron_vl.py
index b1f6d39f0124..6bea808152f6 100644
--- a/tests/models/multimodal/pooling/test_llama_nemotron_vl.py
+++ b/tests/models/multimodal/pooling/test_llama_nemotron_vl.py
@@ -17,7 +17,6 @@
 import torch
 from transformers import AutoModel, AutoModelForSequenceClassification, AutoProcessor
 
-from tests.models.multimodal.conftest import patch_hf_vision_attn_for_rocm
 from vllm.entrypoints.chat_utils import (
     ChatCompletionContentPartImageParam,
     ChatCompletionContentPartTextParam,
@@ -79,7 +78,6 @@ def _run_test(
 
     # Run HF inference using the model's encode_queries/encode_documents API
     with hf_runner(model, dtype=dtype, auto_cls=AutoModel) as hf_model:
-        patch_hf_vision_attn_for_rocm(hf_model.model)
         hf_outputs = []
         for text, image in zip(input_texts, input_images):
             with torch.inference_mode():
@@ -212,7 +210,6 @@ def _run_hf_reranker(
         trust_remote_code=True,
         auto_cls=AutoModelForSequenceClassification,
     ) as hf_model:
-        patch_hf_vision_attn_for_rocm(hf_model.model)
         processor = AutoProcessor.from_pretrained(
             model,
             trust_remote_code=True,
@@ -329,7 +326,6 @@ def _run_reranker_test(
     assert len(hf_scores) == len(vllm_scores), (
         f"Output length mismatch: HF={len(hf_scores)}, vLLM={len(vllm_scores)}"
     )
-
     # NOTE: ROCm shows slightly higher numerical variance dues to different attention
     # backend between vLLM and HF; use a marginally looser tolerance
     rel_tol = 0.022 if current_platform.is_rocm() else 0.02