embeddings-benchmark · Samoed · Oct 7, 2025 · Oct 6, 2025 · Oct 7, 2025
diff --git a/mteb/evaluation/evaluators/RegressionEvaluator.py b/mteb/evaluation/evaluators/RegressionEvaluator.py
@@ -53,19 +53,13 @@ def __call__(
         scores = {}
         X_train = model.encode(
             self.sentences_train,
-            model=model,
             task_name=self.task_name,
-            hf_split="train",
-            hf_subset=self.hf_subset,
             **encode_kwargs,
         )
         if test_cache is None:
             X_test = model.encode(
                 self.sentences_test,
-                model=model,
                 task_name=self.task_name,
-                hf_split=self.hf_split,
-                hf_subset=self.hf_subset,
                 **encode_kwargs,
             )
             test_cache = X_test

diff --git a/tests/test_benchmark/mock_tasks.py b/tests/test_benchmark/mock_tasks.py
@@ -20,6 +20,7 @@
 from mteb.abstasks.AbsTaskRetrieval import AbsTaskRetrieval
 from mteb.abstasks.AbsTaskSTS import AbsTaskSTS
 from mteb.abstasks.AbsTaskSummarization import AbsTaskSummarization
+from mteb.abstasks.AbsTaskTextRegression import AbsTaskTextRegression
 from mteb.abstasks.Image.AbsTaskAny2AnyMultiChoice import AbsTaskAny2AnyMultiChoice
 from mteb.abstasks.Image.AbsTaskAny2AnyRetrieval import AbsTaskAny2AnyRetrieval
 from mteb.abstasks.Image.AbsTaskImageClassification import AbsTaskImageClassification
@@ -2865,3 +2866,51 @@ def load_data(self, **kwargs):
 
     def get_candidate_labels(self) -> list[str]:
         return ["This is a test sentence", "This is another test sentence"]
+
+
+class MockRegressionTask(AbsTaskTextRegression):
+    expected_stats = {
+        "test": {
+            "num_samples": 2,
+            "number_of_characters": 52,
+            "num_texts_in_train": 1,
+            "min_text_length": 23,
+            "average_text_length": 26.0,
+            "max_text_length": 29,
+            "unique_text": 2,
+            "min_value": 0.0,
+            "average_value": 0.5,
+            "max_value": 1.0,
+        }
+    }
+
+    metadata = TaskMetadata(
+        type="Regression",
+        name="MockRegressionTask",
+        main_score="kendalltau",
+        **general_args,  # type: ignore
+    )
+
+    def load_data(self, **kwargs):
+        train_texts = ["This is a test sentence", "This is another train sentence"]
+        test_texts = ["This is a test sentence", "This is another test sentence"]
+        train_values = [1.0, 0.0]
+        test_values = [1.0, 0.0]
+
+        self.dataset = DatasetDict(
+            {
+                "test": Dataset.from_dict(
+                    {
+                        "text": test_texts,
+                        "value": test_values,
+                    }
+                ),
+                "train": Dataset.from_dict(
+                    {
+                        "text": train_texts,
+                        "value": train_values,
+                    }
+                ),
+            }
+        )
+        self.data_loaded = True
diff --git a/tests/test_benchmark/task_grid.py b/tests/test_benchmark/task_grid.py
@@ -44,6 +44,7 @@
     MockMultilingualSTSTask,
     MockMultilingualSummarizationTask,
     MockPairClassificationTask,
+    MockRegressionTask,
     MockRerankingTask,
     MockRetrievalTask,
     MockSTSTask,
@@ -88,6 +89,7 @@
     MockMultilingualBitextMiningTask(),
     MockMultilingualParallelBitextMiningTask(),
     MockClassificationTask(),
+    MockRegressionTask(),
     MockMultilingualClassificationTask(),
     MockClusteringTask(),
     MockMultilingualClusteringTask(),