huggingface · astachowiczhabana · Jul 11, 2025 · Jul 2, 2025 · Jul 3, 2025
@@ -24,10 +24,10 @@
 import numpy as np
 import torch
 from huggingface_hub import hf_hub_download
+from transformers import VideoLlavaProcessor
 
 from optimum.habana.transformers.modeling_utils import (
     GaudiVideoLlavaForConditionalGeneration,
-    GaudiVideoLlavaProcessor,
     adapt_transformers_to_gaudi,
 )
 
@@ -168,7 +168,7 @@ def main():
 
         model = wrap_in_hpu_graph(model)
 
-    processor = GaudiVideoLlavaProcessor.from_pretrained(args.model_name_or_path)
+    processor = VideoLlavaProcessor.from_pretrained(args.model_name_or_path)
     processor.tokenizer.padding_side = "left"
     inputs = processor(text=prompts, videos=video_clips, return_tensors="pt")
     inputs = inputs.to(device)

@@ -183,7 +183,6 @@
     GaudiStarcoder2ForCausalLM,
     GaudiStarcoder2Model,
     GaudiVideoLlavaForConditionalGeneration,
-    GaudiVideoLlavaProcessor,
     GaudiVisionSdpaAttention,
     GaudiWav2Vec2SdpaAttention,
     GaudiWhisperDecoder,
@@ -757,7 +756,6 @@ def adapt_transformers_to_gaudi():
     transformers.models.video_llava.modeling_video_llava.VideoLlavaForConditionalGeneration = (
         GaudiVideoLlavaForConditionalGeneration
     )
-    transformers.models.video_llava.processing_video_llava.VideoLlavaProcessor = GaudiVideoLlavaProcessor
 
     # Optimization for Whisper on Gaudi
     transformers.models.whisper.modeling_whisper.WhisperSdpaAttention = GaudiWhisperSdpaAttention

@@ -339,7 +339,7 @@
     gaudi_T5Stack_forward,
 )
 from .table_transformer import gaudi_table_transformer_conv_encoder_forward
-from .video_llava import GaudiVideoLlavaForConditionalGeneration, GaudiVideoLlavaProcessor
+from .video_llava import GaudiVideoLlavaForConditionalGeneration
 from .vision_encoder_decoder import (
     gaudi_VisionEncoderDecoderModel_prepare_inputs_for_generation,
 )

@@ -1,2 +1 @@
 from .modeling_video_llava import GaudiVideoLlavaForConditionalGeneration
-from .processing_video_llava import GaudiVideoLlavaProcessor
Original file line number	Diff line number	Diff line change
		@@ -1,2 +1 @@
		from .modeling_video_llava import GaudiVideoLlavaForConditionalGeneration
		from .processing_video_llava import GaudiVideoLlavaProcessor