From 55f044701be13188f49f08482e6e3b619adfb135 Mon Sep 17 00:00:00 2001
From: Roman Solomatin <36135455+Samoed@users.noreply.github.com>
Date: Fri, 28 Feb 2025 00:43:40 +0300
Subject: [PATCH] add base models for e5

---
 mteb/models/e5_instruct.py |  2 ++
 mteb/models/e5_models.py   | 13 +++++++++----
 2 files changed, 11 insertions(+), 4 deletions(-)

diff --git a/mteb/models/e5_instruct.py b/mteb/models/e5_instruct.py
index 5bc436bf15..9a7be2faa5 100644
--- a/mteb/models/e5_instruct.py
+++ b/mteb/models/e5_instruct.py
@@ -55,6 +55,7 @@
     embed_dim=1024,
     license="mit",
     max_tokens=514,
+    adapted_from="FacebookAI/xlm-roberta-large",
     public_training_code=None,
     public_training_data=None,
     training_datasets=ME5_TRAINING_DATA,
@@ -90,6 +91,7 @@
     public_training_code=None,
     public_training_data=None,
     training_datasets=E5_MISTRAL_TRAINING_DATA,
+    adapted_from="mistralai/Mistral-7B-v0.1",
 )
 
 zeta_alpha_ai__Zeta_Alpha_E5_Mistral = ModelMeta(
diff --git a/mteb/models/e5_models.py b/mteb/models/e5_models.py
index a2d68ce266..c7515b761d 100644
--- a/mteb/models/e5_models.py
+++ b/mteb/models/e5_models.py
@@ -167,6 +167,7 @@
     public_training_code=None,
     public_training_data=None,
     training_datasets=ME5_TRAINING_DATA,
+    adapted_from="microsoft/Multilingual-MiniLM-L12-H384",
 )
 
 e5_mult_base = ModelMeta(
@@ -191,6 +192,7 @@
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
+    adapted_from="FacebookAI/xlm-roberta-base",
     training_datasets=ME5_TRAINING_DATA,
 )
 
@@ -218,6 +220,7 @@
     public_training_code=None,
     public_training_data=None,
     training_datasets=ME5_TRAINING_DATA,
+    adapted_from="FacebookAI/xlm-roberta-large",
 )
 
 e5_eng_small_v2 = ModelMeta(
@@ -242,6 +245,7 @@
     use_instructions=True,
     public_training_code=None,
     public_training_data=None,
+    adapted_from="intfloat/e5-small",
     training_datasets=E5_TRAINING_DATA,
 )
 
@@ -269,6 +273,7 @@
     public_training_code=None,
     public_training_data=None,
     training_datasets=E5_TRAINING_DATA,
+    adapted_from="sentence-transformers/all-MiniLM-L6-v2",
 )
 
 e5_eng_base_v2 = ModelMeta(
@@ -293,7 +298,7 @@
     framework=["Sentence Transformers", "PyTorch"],
     use_instructions=True,
     superseded_by=None,
-    adapted_from=None,
+    adapted_from="intfloat/e5-base",
     public_training_code=None,
     public_training_data=None,
     training_datasets=E5_TRAINING_DATA,
@@ -321,7 +326,7 @@
     framework=["Sentence Transformers", "PyTorch"],
     use_instructions=True,
     superseded_by=None,
-    adapted_from=None,
+    adapted_from="intfloat/e5-large",
     public_training_code=None,
     public_training_data=None,
     training_datasets=E5_TRAINING_DATA,
@@ -349,7 +354,7 @@
     framework=["Sentence Transformers", "PyTorch"],
     use_instructions=True,
     superseded_by="intfloat/e5-large-v2",
-    adapted_from=None,
+    adapted_from="google-bert/bert-large-uncased-whole-word-masking",
     public_training_code=None,
     public_training_data=None,
     training_datasets=E5_TRAINING_DATA,
@@ -377,7 +382,7 @@
     framework=["Sentence Transformers", "PyTorch"],
     use_instructions=True,
     superseded_by="intfloat/e5-base-v2",
-    adapted_from=None,
+    adapted_from="google-bert/bert-base-uncased",
     public_training_code=None,
     public_training_data=None,
     training_datasets=E5_TRAINING_DATA,