[`PixtralLarge`] Update Pixtral conversion script to support large format! #34801

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Merged

ArthurZucker merged 46 commits into main from pixtral-large-script

Jan 8, 2025

src/transformers/models/llava/configuration_llava.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -50,6 +50,8 @@ class LlavaConfig(PretrainedConfig): @@
                 The index of the layer to select the vision feature.
             image_seq_length (`int`, *optional*, defaults to 576):
                 Sequence length of one image embedding.
+            multimodal_projector_bias (`bool`, *optional*, defaults to `True`):
+                Whether to use bias in the multimodal projector.
         Example:
@@ Expand Down Expand Up / @@ -85,6 +87,7 @@ def __init__( @@
             vision_feature_select_strategy="default",
             vision_feature_layer=-2,
             image_seq_length=576,
+            multimodal_projector_bias=True,
             **kwargs,
         ):
             self.ignore_index = ignore_index
@@ Expand Down Expand Up / @@ -127,6 +130,7 @@ def __init__( @@
                 text_config = CONFIG_MAPPING["llama"]()
             self.text_config = text_config
+            self.multimodal_projector_bias = multimodal_projector_bias
             super().__init__(**kwargs)
@@ Expand Down @@

src/transformers/models/llava/modeling_llava.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -86,10 +86,13 @@ class LlavaCausalLMOutputWithPast(ModelOutput): @@
     class LlavaMultiModalProjector(nn.Module):
         def __init__(self, config: LlavaConfig):
             super().__init__()
-            self.linear_1 = nn.Linear(config.vision_config.hidden_size, config.text_config.hidden_size, bias=True)
+            self.linear_1 = nn.Linear(
+                config.vision_config.hidden_size, config.text_config.hidden_size, bias=config.multimodal_projector_bias
+            )
             self.act = ACT2FN[config.projector_hidden_act]
-            self.linear_2 = nn.Linear(config.text_config.hidden_size, config.text_config.hidden_size, bias=True)
+            self.linear_2 = nn.Linear(
+                config.text_config.hidden_size, config.text_config.hidden_size, bias=config.multimodal_projector_bias
+            )
         def forward(self, image_features):
             hidden_states = self.linear_1(image_features)
@@ Expand Down @@

src/transformers/models/llava_next/configuration_llava_next.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -55,6 +55,8 @@ class LlavaNextConfig(PretrainedConfig): @@
                 Whether the model's input and output word embeddings should be tied.
             image_seq_length (`int`, *optional*, defaults to 576):
                 Sequence length of one image embedding.
+            multimodal_projector_bias (`bool`, *optional*, defaults to `True`):
+                Whether to use bias in the multimodal projector.
         Example:
@@ Expand Down Expand Up / @@ -92,12 +94,14 @@ def __init__( @@
             image_grid_pinpoints=None,
             tie_word_embeddings=False,
             image_seq_length=576,
+            multimodal_projector_bias=True,
             **kwargs,
         ):
             self.ignore_index = ignore_index
             self.image_token_index = image_token_index
             self.projector_hidden_act = projector_hidden_act
             self.image_seq_length = image_seq_length
+            self.multimodal_projector_bias = multimodal_projector_bias
             if vision_feature_select_strategy not in ["default", "full"]:
                 raise ValueError(
@@ Expand Down @@

src/transformers/models/llava_next/modeling_llava_next.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -194,10 +194,13 @@ class LlavaNextCausalLMOutputWithPast(ModelOutput): @@
     class LlavaNextMultiModalProjector(nn.Module):
         def __init__(self, config: LlavaNextConfig):
             super().__init__()
-            self.linear_1 = nn.Linear(config.vision_config.hidden_size, config.text_config.hidden_size, bias=True)
+            self.linear_1 = nn.Linear(
+                config.vision_config.hidden_size, config.text_config.hidden_size, bias=config.multimodal_projector_bias
+            )
             self.act = ACT2FN[config.projector_hidden_act]
-            self.linear_2 = nn.Linear(config.text_config.hidden_size, config.text_config.hidden_size, bias=True)
+            self.linear_2 = nn.Linear(
+                config.text_config.hidden_size, config.text_config.hidden_size, bias=config.multimodal_projector_bias
+            )
         def forward(self, image_features):
             hidden_states = self.linear_1(image_features)
@@ Expand Down @@

src/transformers/models/llava_next_video/configuration_llava_next_video.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -44,6 +44,8 @@ class LlavaNextVideoConfig(PretrainedConfig): @@
                 The image token index to encode the image prompt.
             projector_hidden_act (`str`, *optional*, defaults to `"gelu"`):
                 The activation function used by the multimodal projector.
+            multimodal_projector_bias (`bool`, *optional*, defaults to `True`):
+                Whether to use bias in the multimodal projector.
             vision_feature_select_strategy (`str`, *optional*, defaults to `"default"`):
                 The feature selection strategy used to select the vision feature from the vision backbone.
                 Can be one of `"default"` or `"full"`. If `"default"`, the CLS token is removed from the vision features.
@@ Expand Down Expand Up / @@ -95,6 +97,7 @@ def __init__( @@
             ignore_index=-100,
             image_token_index=32001,
             projector_hidden_act="gelu",
+            multimodal_projector_bias=True,
             vision_feature_select_strategy="default",
             vision_feature_layer=-2,
             image_grid_pinpoints=None,
@@ Expand All / @@ -114,6 +117,7 @@ def __init__( @@
             self.ignore_index = ignore_index
             self.image_token_index = image_token_index
             self.projector_hidden_act = projector_hidden_act
+            self.multimodal_projector_bias = multimodal_projector_bias
             if vision_feature_select_strategy not in ["default", "full"]:
                 raise ValueError(
@@ Expand Down @@

src/transformers/models/llava_next_video/modeling_llava_next_video.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -179,10 +179,13 @@ def _init_weights(self, module): @@
     class LlavaNextVideoMultiModalProjector(nn.Module):
         def __init__(self, config: LlavaNextVideoConfig):
             super().__init__()
-            self.linear_1 = nn.Linear(config.vision_config.hidden_size, config.text_config.hidden_size, bias=True)
+            self.linear_1 = nn.Linear(
+                config.vision_config.hidden_size, config.text_config.hidden_size, bias=config.multimodal_projector_bias
+            )
             self.act = ACT2FN[config.projector_hidden_act]
-            self.linear_2 = nn.Linear(config.text_config.hidden_size, config.text_config.hidden_size, bias=True)
+            self.linear_2 = nn.Linear(
+                config.text_config.hidden_size, config.text_config.hidden_size, bias=config.multimodal_projector_bias
+            )
         def forward(self, image_features):
             hidden_states = self.linear_1(image_features)
@@ Expand Down @@

src/transformers/models/llava_next_video/modular_llava_next_video.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -58,6 +58,8 @@ class LlavaNextVideoConfig(PretrainedConfig): @@
                 The image token index to encode the image prompt.
             projector_hidden_act (`str`, *optional*, defaults to `"gelu"`):
                 The activation function used by the multimodal projector.
+            multimodal_projector_bias (`bool`, *optional*, defaults to `True`):
+                Whether to use bias in the multimodal projector.
             vision_feature_select_strategy (`str`, *optional*, defaults to `"default"`):
                 The feature selection strategy used to select the vision feature from the vision backbone.
                 Can be one of `"default"` or `"full"`. If `"default"`, the CLS token is removed from the vision features.
@@ Expand Down Expand Up / @@ -109,6 +111,7 @@ def __init__( @@
             ignore_index=-100,
             image_token_index=32001,
             projector_hidden_act="gelu",
+            multimodal_projector_bias=True,
             vision_feature_select_strategy="default",
             vision_feature_layer=-2,
             image_grid_pinpoints=None,
@@ Expand All / @@ -128,6 +131,7 @@ def __init__( @@
             self.ignore_index = ignore_index
             self.image_token_index = image_token_index
             self.projector_hidden_act = projector_hidden_act
+            self.multimodal_projector_bias = multimodal_projector_bias
             if vision_feature_select_strategy not in ["default", "full"]:
                 raise ValueError(
@@ Expand Down @@

src/transformers/models/llava_onevision/configuration_llava_onevision.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -58,6 +58,8 @@ class LlavaOnevisionConfig(PretrainedConfig): @@
                 of the form `(height, width)`.
             tie_word_embeddings (`bool`, *optional*, defaults to `False`):
                 Whether the model's input and output word embeddings should be tied.
+            multimodal_projector_bias (`bool`, *optional*, defaults to `True`):
+                Whether to use bias in the multimodal projector.
         Example:
@@ Expand Down Expand Up / @@ -95,11 +97,13 @@ def __init__( @@
             vision_aspect_ratio="anyres_max_9",
             image_grid_pinpoints=None,
             tie_word_embeddings=False,
+            multimodal_projector_bias=True,
             **kwargs,
         ):
             self.image_token_index = image_token_index
             self.video_token_index = video_token_index
             self.projector_hidden_act = projector_hidden_act
+            self.multimodal_projector_bias = multimodal_projector_bias
             if vision_feature_select_strategy not in ["default", "full"]:
                 raise ValueError(
@@ Expand Down @@

src/transformers/models/llava_onevision/modeling_llava_onevision.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -201,10 +201,13 @@ class LlavaOnevisionCausalLMOutputWithPast(ModelOutput): @@
     class LlavaOnevisionMultiModalProjector(nn.Module):
         def __init__(self, config: LlavaOnevisionConfig):
             super().__init__()
-            self.linear_1 = nn.Linear(config.vision_config.hidden_size, config.text_config.hidden_size, bias=True)
+            self.linear_1 = nn.Linear(
+                config.vision_config.hidden_size, config.text_config.hidden_size, bias=config.multimodal_projector_bias
+            )
             self.act = ACT2FN[config.projector_hidden_act]
-            self.linear_2 = nn.Linear(config.text_config.hidden_size, config.text_config.hidden_size, bias=True)
+            self.linear_2 = nn.Linear(
+                config.text_config.hidden_size, config.text_config.hidden_size, bias=config.multimodal_projector_bias
+            )
         def forward(self, image_features):
             hidden_states = self.linear_1(image_features)
@@ Expand Down @@

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[`PixtralLarge`] Update Pixtral conversion script to support large format! #34801

Uh oh!

Diff view

Diff view

There are no files selected for viewing

Uh oh!

Uh oh!

[PixtralLarge] Update Pixtral conversion script to support large format! #34801

Uh oh!

[PixtralLarge] Update Pixtral conversion script to support large format! #34801

Uh oh!

Uh oh!

Diff view

Diff view

There are no files selected for viewing

Uh oh!

Uh oh!

[`PixtralLarge`] Update Pixtral conversion script to support large format! #34801

[`PixtralLarge`] Update Pixtral conversion script to support large format! #34801