Standardize audio embedding function name for audio multimodal models (#40919)

jackzhxng · web-flow · commit 3bb1b4867cbb · 2025-09-18T08:45:04.000Z
* Standardize audio embedding function name for audio multimodal models

* PR review
diff --git a/src/transformers/models/voxtral/modeling_voxtral.py b/src/transformers/models/voxtral/modeling_voxtral.py
@@ -20,6 +20,7 @@
 # limitations under the License.
 
 import math
+import warnings
 from typing import Callable, Optional, Union
 
 import torch
@@ -431,7 +432,7 @@ def set_decoder(self, decoder):
     def get_decoder(self):
         return self.language_model.get_decoder()
 
-    def get_audio_embeds(self, input_features: torch.FloatTensor):
+    def get_audio_features(self, input_features: torch.FloatTensor):
         """
         This method is used to get the audio embeddings from input features (a log mel spectrogram), meaning inferring the audio encoder and the multi-modal projector.
         Args:
@@ -452,6 +453,12 @@ def get_audio_embeds(self, input_features: torch.FloatTensor):
         audio_embeds = self.multi_modal_projector(audio_hidden_states)
         return audio_embeds
 
+    def get_audio_embeds(self, input_features: torch.FloatTensor):
+        warnings.warn(
+            "The method `get_audio_embeds` is deprecated. Please use `get_audio_features` instead.", FutureWarning
+        )
+        return self.get_audio_features(input_features)
+
     @can_return_tuple
     @auto_docstring
     def forward(
@@ -505,7 +512,7 @@ def forward(
             inputs_embeds = self.get_input_embeddings()(input_ids)
 
         if input_features is not None and input_ids is not None:
-            audio_embeds = self.get_audio_embeds(input_features)
+            audio_embeds = self.get_audio_features(input_features)
 
             # replace text-audio token placeholders with audio embeddings
             audio_token_mask = (input_ids == self.config.audio_token_id).unsqueeze(-1)
diff --git a/src/transformers/models/voxtral/modular_voxtral.py b/src/transformers/models/voxtral/modular_voxtral.py
@@ -13,6 +13,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+import warnings
 from typing import Optional, Union
 
 import torch
@@ -166,7 +167,7 @@ def set_decoder(self, decoder):
     def get_decoder(self):
         return self.language_model.get_decoder()
 
-    def get_audio_embeds(self, input_features: torch.FloatTensor):
+    def get_audio_features(self, input_features: torch.FloatTensor):
         """
         This method is used to get the audio embeddings from input features (a log mel spectrogram), meaning inferring the audio encoder and the multi-modal projector.
         Args:
@@ -187,6 +188,12 @@ def get_audio_embeds(self, input_features: torch.FloatTensor):
         audio_embeds = self.multi_modal_projector(audio_hidden_states)
         return audio_embeds
 
+    def get_audio_embeds(self, input_features: torch.FloatTensor):
+        warnings.warn(
+            "The method `get_audio_embeds` is deprecated. Please use `get_audio_features` instead.", FutureWarning
+        )
+        return self.get_audio_features(input_features)
+
     @can_return_tuple
     @auto_docstring
     def forward(
@@ -240,7 +247,7 @@ def forward(
             inputs_embeds = self.get_input_embeddings()(input_ids)
 
         if input_features is not None and input_ids is not None:
-            audio_embeds = self.get_audio_embeds(input_features)
+            audio_embeds = self.get_audio_features(input_features)
 
             # replace text-audio token placeholders with audio embeddings
             audio_token_mask = (input_ids == self.config.audio_token_id).unsqueeze(-1)