embeddings-benchmark · isaac-chung · Mar 8, 2025 · Mar 8, 2025 · Mar 8, 2025 · Mar 8, 2025
diff --git a/mteb/models/clap_models.py b/mteb/models/clap_models.py
@@ -194,44 +194,122 @@ def encode(
 clap_htsat_fused = ModelMeta(
     loader=partial(ClapZeroShotWrapper, model_name="laion/clap-htsat-fused"),
     name="laion/clap-htsat-fused",
-    languages=["en"],
-    revision="main",
+    languages=["eng_Latn"],
+    revision="cca9e288ab447cee67d9ada1f85ddb46500f1401",
     release_date="2023-05-22",
     modalities=["audio", "text"],
     n_parameters=153_507_530,  # Calculated using torch.numel(model.parameters())
     memory_usage_mb=586,  # Calculated using model.calculate_memory_usage_mb()
     max_tokens=float("inf"),
     embed_dim=512,  # The project_dim in config.json is 512
-    license="MIT",
+    license="mit",
     open_weights=True,
     public_training_code="https://github.com/LAION-AI/CLAP",
-    public_training_data="LAION-Audio-630K",
+    public_training_data="https://laion.ai/blog/laion-audio-630k/",
     framework=["PyTorch"],
     reference="https://huggingface.co/laion/clap_htsat_fused",
     similarity_fn_name="cosine",
     use_instructions=False,
-    training_datasets={"LAION-Audio-630K": ["https://laion.ai/blog/laion-audio-630k/"]},
+    training_datasets={
+        # "LAION-Audio-630K": ["https://laion.ai/blog/laion-audio-630k/"]
+    },
 )
 
 
 clap_htsat_unfused = ModelMeta(
     loader=partial(ClapZeroShotWrapper, model_name="laion/clap-htsat-unfused"),
     name="laion/clap-htsat-unfused",
-    languages=["en"],
-    revision="main",
+    languages=["eng_Latn"],
+    revision="8fa0f1c6d0433df6e97c127f64b2a1d6c0dcda8a",
     release_date="2023-05-22",
     modalities=["audio", "text"],
     n_parameters=153_492_890,  # Calculated using torch.numel(model.parameters())
     memory_usage_mb=586,  # Calculated using model.calculate_memory_usage_mb()
     max_tokens=float("inf"),
     embed_dim=512,  # The project_dim in config.json is 512
-    license="MIT",
+    license="mit",
     open_weights=True,
     public_training_code="https://github.com/LAION-AI/CLAP",
-    public_training_data="LAION-Audio-630K",
+    public_training_data="https://laion.ai/blog/laion-audio-630k/",
     framework=["PyTorch"],
     reference="https://huggingface.co/laion/clap_htsat_unfused",
     similarity_fn_name="cosine",
     use_instructions=False,
-    training_datasets={"LAION-Audio-630K": ["https://laion.ai/blog/laion-audio-630k/"]},
+    training_datasets={
+        # "LAION-Audio-630K": ["https://laion.ai/blog/laion-audio-630k/"]
+    },
+)
+
+larger_clap_general = ModelMeta(
+    loader=partial(ClapZeroShotWrapper, model_name="laion/larger_clap_general"),
+    name="laion/larger_clap_general",
+    languages=["eng_Latn"],
+    revision="ada0c23a36c4e8582805bb38fec3905903f18b41",
+    release_date="2023-05-22",
+    modalities=["audio", "text"],
+    n_parameters=193_913_882,  # Calculated using torch.numel(model.parameters())
+    memory_usage_mb=740,  # Calculated using model.calculate_memory_usage_mb()
+    max_tokens=float("inf"),
+    embed_dim=512,  # The project_dim (for even larger clap general) in config.json is 512
+    license="mit",
+    open_weights=True,
+    public_training_code="https://github.com/LAION-AI/CLAP",
+    public_training_data="https://laion.ai/blog/laion-audio-630k/",
+    framework=["PyTorch"],
+    reference="https://huggingface.co/laion/larger_clap_general",
+    similarity_fn_name="cosine",
+    use_instructions=False,
+    training_datasets={
+        # "LAION-Audio-630K": ["https://laion.ai/blog/laion-audio-630k/"]
+    },  # Additional finetuning over music dataset but not specified what the exact dataset is
+)
+
+larger_clap_music = ModelMeta(
+    loader=partial(ClapZeroShotWrapper, model_name="laion/larger_clap_music"),
+    name="laion/larger_clap_music",
+    languages=["eng_Latn"],
+    revision="a0b4534a14f58e20944452dff00a22a06ce629d1",
+    release_date="2023-05-22",
+    modalities=["audio", "text"],
+    n_parameters=193_913_882,  # Calculated using torch.numel(model.parameters())
+    memory_usage_mb=740,  # Calculated using model.calculate_memory_usage_mb()
+    max_tokens=float("inf"),
+    embed_dim=512,  # The project_dim (for even larger clap general) in config.json is 512
+    license="mit",
+    open_weights=True,
+    public_training_code="https://github.com/LAION-AI/CLAP",
+    public_training_data="https://laion.ai/blog/laion-audio-630k/",
+    framework=["PyTorch"],
+    reference="https://huggingface.co/laion/larger_clap_music",
+    similarity_fn_name="cosine",
+    use_instructions=False,
+    training_datasets={
+        # "LAION-Audio-630K": ["https://laion.ai/blog/laion-audio-630k/"]
+    },  # Additional finetuning over music dataset but not specified what the exact dataset is
+)
+
+larger_clap_music_and_speech = ModelMeta(
+    loader=partial(
+        ClapZeroShotWrapper, model_name="laion/larger_clap_music_and_speech"
+    ),
+    name="laion/larger_clap_music_and_speech",
+    languages=["eng_Latn"],
+    revision="195c3a3e68faebb3e2088b9a79e79b43ddbda76b",
+    release_date="2023-05-22",
+    modalities=["audio", "text"],
+    n_parameters=193_913_882,  # Calculated using torch.numel(model.parameters())
+    memory_usage_mb=740,  # Calculated using model.calculate_memory_usage_mb()
+    max_tokens=float("inf"),
+    embed_dim=512,  # The project_dim (for even larger clap general) in config.json is 512
+    license="mit",
+    open_weights=True,
+    public_training_code="https://github.com/LAION-AI/CLAP",
+    public_training_data="https://laion.ai/blog/laion-audio-630k/",
+    framework=["PyTorch"],
+    reference="https://huggingface.co/laion/larger_clap_music_and_speech",
+    similarity_fn_name="cosine",
+    use_instructions=False,
+    training_datasets={
+        # "LAION-Audio-630K": ["https://laion.ai/blog/laion-audio-630k/"]
+    },  # Additional finetuning over music dataset but not specified what the exact dataset is
 )