embeddings-benchmark · isaac-chung · Oct 28, 2024 · Oct 26, 2024 · Oct 27, 2024 · Oct 27, 2024
diff --git a/mteb/abstasks/Image/AbsTaskImageClassification.py b/mteb/abstasks/Image/AbsTaskImageClassification.py
@@ -5,6 +5,7 @@
 from typing import Any
 
 import numpy as np
+from PIL import ImageFile
 
 from mteb.abstasks.TaskMetadata import HFSubset
 
@@ -16,6 +17,8 @@
 )
 from ..AbsTask import AbsTask, ScoresDict
 
+ImageFile.LOAD_TRUNCATED_IMAGES = True
+
 logger = logging.getLogger(__name__)
 
 
@@ -133,7 +136,7 @@ def _evaluate_subset(
                 "=" * 10 + f" Experiment {i+1}/{self.n_experiments} " + "=" * 10
             )
             # Bootstrap `self.samples_per_label` samples per label for each split
-            X_sampled, y_sampled, idxs = self._undersample_data(
+            undersampled_train, idxs = self._undersample_data(
                 train_split,
                 self.label_column_name,
                 self.samples_per_label,
@@ -142,8 +145,7 @@ def _evaluate_subset(
 
             if self.method == "kNN":
                 evaluator = ImagekNNClassificationEvaluator(
-                    X_sampled,
-                    y_sampled,
+                    undersampled_train,
                     eval_split,
                     self.image_column_name,
                     self.label_column_name,
@@ -153,8 +155,7 @@ def _evaluate_subset(
                 )
             elif self.method == "kNN-pytorch":
                 evaluator = ImagekNNClassificationEvaluatorPytorch(
-                    X_sampled,
-                    y_sampled,
+                    undersampled_train,
                     eval_split,
                     self.image_column_name,
                     self.label_column_name,
@@ -164,8 +165,7 @@ def _evaluate_subset(
                 )
             elif self.method == "logReg":
                 evaluator = ImagelogRegClassificationEvaluator(
-                    X_sampled,
-                    y_sampled,
+                    undersampled_train,
                     eval_split,
                     self.image_column_name,
                     self.label_column_name,
@@ -199,15 +199,15 @@ def _undersample_data(
         label_counter = defaultdict(int)
         selected_indices = []
 
+        labels = dataset_split[label_column_name]
         for i in idxs:
-            label = dataset_split[i][label_column_name]
+            label = labels[i]
             if label_counter[label] < samples_per_label:
                 selected_indices.append(i)
                 label_counter[label] += 1
 
         undersampled_dataset = dataset_split.select(selected_indices)
         return (
-            undersampled_dataset[self.image_column_name],
-            undersampled_dataset[self.label_column_name],
+            undersampled_dataset,
             idxs,
         )
diff --git a/mteb/evaluation/evaluators/Image/ClassificationEvaluator.py b/mteb/evaluation/evaluators/Image/ClassificationEvaluator.py
@@ -1,11 +1,12 @@
 from __future__ import annotations
 
 import logging
+import math
+import os
 from typing import Any
 
 import numpy as np
 import torch
-from datasets import Dataset
 from sklearn.linear_model import LogisticRegression
 from sklearn.metrics import (
     accuracy_score,
@@ -55,8 +56,7 @@ def custom_collate_fn(batch):
 class ImagekNNClassificationEvaluator(Evaluator):
     def __init__(
         self,
-        images_train,
-        y_train,
+        dataset_train,
         dataset_test,
         image_column_name,
         label_column_name,
@@ -69,17 +69,13 @@ def __init__(
         super().__init__(**kwargs)
 
         if limit is not None:
-            images_train = images_train[:limit]
-            y_train = y_train[:limit]
-            dataset_test = dataset_test[:limit]
+            dataset_train = dataset_train.select(list(range(limit)))
 
-        self.images_train = images_train
-        self.y_train = y_train
         self.dataset_train = ImageDataset(
-            Dataset.from_dict({"image": images_train, "label": y_train}),
-            image_column_name=image_column_name,
-            transform=transform,
+            dataset_train, image_column_name=image_column_name, transform=transform
         )
+        self.y_train = dataset_train[label_column_name]
+
         self.dataset_test = ImageDataset(
             dataset_test, image_column_name=image_column_name, transform=transform
         )
@@ -102,7 +98,7 @@ def __call__(self, model, test_cache=None):
             batch_size=self.encode_kwargs["batch_size"],
             shuffle=False,
             collate_fn=custom_collate_fn,
-            num_workers=16,
+            num_workers=min(math.floor(os.cpu_count() / 2), 16),
         )
         X_train = model.get_image_embeddings(
             dataloader_train, batch_size=self.encode_kwargs["batch_size"]
@@ -111,7 +107,7 @@ def __call__(self, model, test_cache=None):
             self.dataset_test,
             batch_size=self.encode_kwargs["batch_size"],
             shuffle=False,
-            num_workers=16,
+            num_workers=min(math.floor(os.cpu_count() / 2), 16),
         )
         if test_cache is None:
             X_test = model.get_image_embeddings(
@@ -145,8 +141,7 @@ def __call__(self, model, test_cache=None):
 class ImagekNNClassificationEvaluatorPytorch(Evaluator):
     def __init__(
         self,
-        images_train,
-        y_train,
+        dataset_train,
         dataset_test,
         image_column_name,
         label_column_name,
@@ -158,17 +153,13 @@ def __init__(
     ):
         super().__init__(**kwargs)
         if limit is not None:
-            images_train = images_train[:limit]
-            y_train = y_train[:limit]
-            dataset_test = dataset_test[:limit]
+            dataset_train = dataset_train.select(list(range(limit)))
 
-        self.images_train = images_train
         self.dataset_train = ImageDataset(
-            Dataset.from_dict({"image": images_train, "label": y_train}),
-            image_column_name=image_column_name,
-            transform=transform,
+            dataset_train, image_column_name=image_column_name, transform=transform
         )
-        self.y_train = y_train
+        self.y_train = dataset_train[label_column_name]
+
         self.dataset_test = ImageDataset(
             dataset_test, image_column_name=image_column_name, transform=transform
         )
@@ -192,7 +183,7 @@ def __call__(self, model: Encoder, test_cache=None):
             batch_size=self.encode_kwargs["batch_size"],
             shuffle=False,
             collate_fn=custom_collate_fn,
-            num_workers=16,
+            num_workers=min(math.floor(os.cpu_count() / 2), 16),
         )
         X_train = model.get_image_embeddings(
             dataloader_train, batch_size=self.encode_kwargs["batch_size"]
@@ -202,7 +193,7 @@ def __call__(self, model: Encoder, test_cache=None):
             self.dataset_test,
             batch_size=self.encode_kwargs["batch_size"],
             shuffle=False,
-            num_workers=16,
+            num_workers=min(math.floor(os.cpu_count() / 2), 16),
         )
         if test_cache is None:
             X_test = model.get_image_embeddings(
@@ -311,8 +302,7 @@ def _dot_score(a: Tensor, b: Tensor):
 class ImagelogRegClassificationEvaluator(Evaluator):
     def __init__(
         self,
-        images_train,
-        y_train,
+        dataset_train,
         dataset_test,
         image_column_name,
         label_column_name,
@@ -329,17 +319,12 @@ def __init__(
             self.encode_kwargs["batch_size"] = 32
 
         if limit is not None:
-            images_train = images_train[:limit]
-            y_train = y_train[:limit]
-            dataset_test = dataset_test[:limit]
+            dataset_train = dataset_train.select(list(range(limit)))
 
-        self.images_train = images_train
-        self.y_train = y_train
         self.dataset_train = ImageDataset(
-            Dataset.from_dict({"image": images_train, "label": y_train}),
-            image_column_name=image_column_name,
-            transform=transform,
+            dataset_train, image_column_name=image_column_name, transform=transform
         )
+        self.y_train = dataset_train[label_column_name]
         self.dataset_test = ImageDataset(
             dataset_test, image_column_name=image_column_name, transform=transform
         )
@@ -361,7 +346,7 @@ def __call__(self, model, test_cache=None):
             batch_size=self.encode_kwargs["batch_size"],
             shuffle=False,
             collate_fn=custom_collate_fn,
-            num_workers=16,
+            num_workers=min(math.floor(os.cpu_count() / 2), 16),
         )
         X_train = model.get_image_embeddings(
             dataloader_train, batch_size=self.encode_kwargs["batch_size"]
@@ -371,7 +356,7 @@ def __call__(self, model, test_cache=None):
             batch_size=self.encode_kwargs["batch_size"],
             shuffle=False,
             collate_fn=custom_collate_fn,
-            num_workers=16,
+            num_workers=min(math.floor(os.cpu_count() / 2), 16),
         )
         if test_cache is None:
             X_test = model.get_image_embeddings(