embeddings-benchmark · KennethEnevoldsen · Jun 9, 2025 · May 28, 2025 · May 28, 2025 · May 28, 2025
diff --git a/mteb/benchmarks/benchmarks.py b/mteb/benchmarks/benchmarks.py
@@ -1999,3 +1999,33 @@
 }
 """,
 )
+
+R2MED = Benchmark(
+    name="R2MED",
+    display_name="Reasoning-driven medical retrieval",
+    tasks=get_tasks(
+        tasks=[
+            "R2MEDBiologyRetrieval",
+            "R2MEDBioinformaticsRetrieval",
+            "R2MEDMedicalSciencesRetrieval",
+            "R2MEDMedXpertQAExamRetrieval",
+            "R2MEDMedQADiagRetrieval",
+            "R2MEDPMCTreatmentRetrieval",
+            "R2MEDPMCClinicalRetrieval",
+            "R2MEDIIYiClinicalRetrieval",
+        ]
+    ),
+    description="""R2MED: First Reasoning-Driven Medical Retrieval Benchmark.
+    R2MED is a high-quality, high-resolution information retrieval (IR) dataset designed for medical scenarios. 
+    It contains 876 queries with three retrieval tasks, five medical scenarios, and twelve body systems.
+    """,
+    reference="https://r2med.github.io/",
+    citation=r"""
+@article{li2025r2med,
+  author = {Li, Lei and Zhou, Xiao and Liu, Zheng},
+  journal = {arXiv preprint arXiv:2505.14558},
+  title = {R2MED: A Benchmark for Reasoning-Driven Medical Retrieval},
+  year = {2025},
+}
+""",
+)
diff --git a/mteb/tasks/Retrieval/__init__.py b/mteb/tasks/Retrieval/__init__.py
@@ -87,6 +87,7 @@
 from .eng.PiqaRetrieval import *
 from .eng.QuailRetrieval import *
 from .eng.QuoraRetrieval import *
+from .eng.R2MEDRetrieval import *
 from .eng.RARbCodeRetrieval import *
 from .eng.RARbMathRetrieval import *
 from .eng.SCIDOCSRetrieval import *