embeddings-benchmark · KennethEnevoldsen · Sep 28, 2024 · Sep 28, 2024 · Sep 28, 2024 · Sep 28, 2024
diff --git a/mteb/benchmarks/benchmarks.py b/mteb/benchmarks/benchmarks.py
@@ -544,3 +544,146 @@ def __getitem__(self, index):
     reference=None,
     citation=None,
 )
+
+
+MTEB_multilingual = Benchmark(
+    name="MTEB(Multilingual)",
+    tasks=get_tasks(
+        tasks=[
+            "BornholmBitextMining",
+            "BibleNLPBitextMining",
+            "BUCC.v2",
+            "DiaBlaBitextMining",
+            "FloresBitextMining",
+            "IN22GenBitextMining",
+            "IndicGenBenchFloresBitextMining",
+            "NollySentiBitextMining",
+            "NorwegianCourtsBitextMining",
+            "NTREXBitextMining",
+            "NusaTranslationBitextMining",
+            "NusaXBitextMining",
+            "Tatoeba",
+            "BulgarianStoreReviewSentimentClassfication",
+            "CzechProductReviewSentimentClassification",
+            "GreekLegalCodeClassification",
+            "DBpediaClassification",
+            "FinancialPhrasebankClassification",
+            "PoemSentimentClassification",
+            "ToxicConversationsClassification",
+            "TweetTopicSingleClassification",
+            "EstonianValenceClassification",
+            "FilipinoShopeeReviewsClassification",
+            "GujaratiNewsClassification",
+            "SentimentAnalysisHindi",
+            "IndonesianIdClickbaitClassification",
+            "ItaCaseholdClassification",
+            "KorSarcasmClassification",
+            "KurdishSentimentClassification",
+            "MacedonianTweetSentimentClassification",
+            "AfriSentiClassification",
+            "AmazonCounterfactualClassification",
+            "CataloniaTweetClassification",
+            "CyrillicTurkicLangClassification",
+            "IndicLangClassification",
+            "MasakhaNEWSClassification",
+            "MassiveIntentClassification",
+            "MultiHateClassification",
+            "NordicLangClassification",
+            "NusaParagraphEmotionClassification",
+            "NusaX-senti",
+            "ScalaClassification",
+            "SwissJudgementClassification",
+            "NepaliNewsClassification",
+            "OdiaNewsClassification",
+            "PunjabiNewsClassification",
+            "PolEmo2.0-OUT",
+            "PAC",
+            "SinhalaNewsClassification",
+            "CSFDSKMovieReviewSentimentClassification",
+            "SiswatiNewsClassification",
+            "SlovakMovieReviewSentimentClassification",
+            "SwahiliNewsClassification",
+            "DalajClassification",
+            "TswanaNewsClassification",
+            "IsiZuluNewsClassification",
+            "WikiCitiesClustering",
+            "MasakhaNEWSClusteringS2S",
+            "RomaniBibleClustering",
+            "ArXivHierarchicalClusteringP2P",
+            "ArXivHierarchicalClusteringS2S",
+            "BigPatentClustering.v2",
+            "BiorxivClusteringP2P.v2",
+            "MedrxivClusteringP2P.v2",
+            "StackExchangeClustering.v2",
+            "AlloProfClusteringS2S.v2",
+            "HALClusteringS2S.v2",
+            "SIB200ClusteringS2S",
+            "WikiClusteringP2P.v2",
+            "SNLHierarchicalClusteringP2P",
+            "PlscClusteringP2P.v2",
+            "SwednClusteringP2P",
+            "CLSClusteringP2P.v2",
+            "StackOverflowQA",
+            "TwitterHjerneRetrieval",
+            "AILAStatutes",
+            "ArguAna",
+            "HagridRetrieval",
+            "LegalBenchCorporateLobbying",
+            "LEMBPasskeyRetrieval",
+            "SCIDOCS",
+            "SpartQA",
+            "TempReasonL1",
+            "TRECCOVID",
+            "WinoGrande",
+            "BelebeleRetrieval",
+            "MLQARetrieval",
+            "StatcanDialogueDatasetRetrieval",
+            "WikipediaRetrievalMultilingual",
+            "CovidRetrieval",
+            "Core17InstructionRetrieval",
+            "News21InstructionRetrieval",
+            "Robust04InstructionRetrieval",
+            "KorHateSpeechMLClassification",
+            "MalteseNewsClassification",
+            "MultiEURLEXMultilabelClassification",
+            "BrazilianToxicTweetsClassification",
+            "CEDRClassification",
+            "CTKFactsNLI",
+            "SprintDuplicateQuestions",
+            "TwitterURLCorpus",
+            "ArmenianParaphrasePC",
+            "indonli",
+            "OpusparcusPC",
+            "PawsXPairClassification",
+            "RTE3",
+            "XNLI",
+            "PpcPC",
+            "TERRa",
+            "WebLINXCandidatesReranking",
+            "AlloprofReranking",
+            "VoyageMMarcoReranking",
+            "WikipediaRerankingMultilingual",
+            "RuBQReranking",
+            "T2Reranking",
+            "GermanSTSBenchmark",
+            "SICK-R",
+            "STS12",
+            "STS13",
+            "STS14",
+            "STS15",
+            "STSBenchmark",
+            "FaroeseSTS",
+            "FinParaSTS",
+            "JSICK",
+            "IndicCrosslingualSTS",
+            "SemRel24STS",
+            "STS17",
+            "STS22.v2",
+            "STSES",
+            "STSB",
+        ],
+    ),
+    description="The Multilingual benchmarks from MMTEB. Currently under development.",
+    reference=None,
+    citation=None,
+)
diff --git a/scripts/mmteb_create_author_list.ipynb b/scripts/mmteb_create_author_list.ipynb
@@ -907,7 +907,7 @@
     "                affiations[aff] = aff_id\n",
     "                aff_id += 1\n",
     "            aff_string += f\"{affiations[aff]},\"\n",
-    "                \n",
+    "\n",
     "        # remove last comma\n",
     "        aff_string = aff_string[:-1]\n",
     "\n",
@@ -936,7 +936,9 @@
     "last_author2 = \"Siva\"\n",
     "last_author__ = [a for a in author_list if last_author2 in a][0]\n",
     "# remove from author list\n",
-    "author_list = [a for a in author_list if last_author1 not in a and last_author2 not in a]\n",
+    "author_list = [\n",
+    "    a for a in author_list if last_author1 not in a and last_author2 not in a\n",
+    "]\n",
     "\n",
     "author_list.append(last_author__)\n",
     "author_list.append(last_author_)"