embeddings-benchmark · Samoed · Feb 20, 2025 · Feb 19, 2025 · Feb 20, 2025
diff --git a/mteb/models/inf_models.py b/mteb/models/inf_models.py
@@ -4,6 +4,37 @@
 
 from mteb.model_meta import ModelMeta, sentence_transformers_loader
 
+inf_retreiver_v1_training_data = {
+    # eng_Latn
+    "ArguAna": ["train"],
+    "CQADupstackRetrieval": ["train"],
+    "ClimateFEVER": ["train"],
+    "DBPedia": ["train"],
+    "FEVER": ["train"],
+    "FiQA2018": ["train"],
+    "HotpotQA": ["train"],
+    "MSMARCO": ["train"],
+    "NFCorpus": ["train"],
+    "NQ": ["train"],
+    "QuoraRetrieval": ["train"],
+    "SCIDOCS": ["train"],
+    "SciFact": ["train"],
+    "TRECCOVID": ["train"],
+    "Touche2020": ["train"],
+    ## and other private data of INF TECH (not in MTEB),
+    #
+    # zho_Hans
+    "CmedqaRetrieval": ["train"],
+    "CovidRetrieval": ["train"],
+    "DuRetrieval": ["train"],
+    "EcomRetrieval": ["train"],
+    "MMarcoRetrieval": ["train"],
+    "MedicalRetrieval": ["train"],
+    "T2Retrieval": ["train"],
+    "VideoRetrieval": ["train"],
+    ## and other private data of INF TECH (not in MTEB),
+}
+
 inf_retriever_v1 = ModelMeta(
     loader=partial(  # type: ignore
         sentence_transformers_loader,
@@ -28,5 +59,32 @@
     adapted_from="Alibaba-NLP/gte-Qwen2-7B-instruct",
     public_training_code=None,
     public_training_data=None,
-    training_datasets=None,
+    training_datasets=inf_retreiver_v1_training_data,
+)
+
+inf_retriever_v1_1_5B = ModelMeta(
+    loader=partial(  # type: ignore
+        sentence_transformers_loader,
+        model_name="infly/inf-retriever-v1-1.5b",
+        revision="c9c05c2dd50707a486966ba81703021ae2094a06",
+        trust_remote_code=True,
+    ),
+    name="infly/inf-retriever-v1-1.5b",
+    languages=["eng_Latn", "zho_Hans"],
+    open_weights=True,
+    revision="c9c05c2dd50707a486966ba81703021ae2094a06",
+    release_date="2025-02-08",  # initial commit of hf model.
+    n_parameters=1_543_268_864,
+    memory_usage_mb=2944,
+    embed_dim=1536,
+    license="apache-2.0",
+    max_tokens=32768,
+    reference="https://huggingface.co/infly/inf-retriever-v1-1.5b",
+    similarity_fn_name="cosine",
+    framework=["Sentence Transformers", "PyTorch"],
+    use_instructions=True,
+    adapted_from="Alibaba-NLP/gte-Qwen2-1.5B-instruct",
+    public_training_code=None,
+    public_training_data=None,
+    training_datasets=inf_retreiver_v1_training_data,
 )