embeddings-benchmark · anime-sh · Mar 14, 2025 · Mar 14, 2025 · Mar 14, 2025 · Mar 15, 2025
diff --git a/mteb/models/clap_models.py b/mteb/models/clap_models.py
@@ -62,6 +62,8 @@ def _handle_batch(
                     if "array" in item:
                         audio = item["array"]
                         # Convert to torch tensor and ensure float32
+                        if isinstance(audio, list):
+                            audio = np.array(audio)
                         audio = (
                             torch.from_numpy(audio).float()
                             if isinstance(audio, np.ndarray)

diff --git a/mteb/models/wav2vec2_models.py b/mteb/models/wav2vec2_models.py
@@ -112,6 +112,8 @@ def _handle_batch(
                 if isinstance(item, dict):
                     if "array" in item:
                         audio = item["array"]
+                        if isinstance(audio, list):
+                            audio = np.array(audio)
                         audio = (
                             torch.from_numpy(audio).float()
                             if isinstance(audio, np.ndarray)

diff --git a/mteb/tasks/Audio/AudioClassification/__init__.py b/mteb/tasks/Audio/AudioClassification/__init__.py
@@ -5,4 +5,5 @@
 from .eng.GTZANGenre import *
 from .eng.GunshotTriangulation import *
 from .eng.NSynth import *
+from .eng.VaaniGenderClassification import *
 from .eng.VoxLingua107Top10 import *