Skip to content
Merged
2 changes: 2 additions & 0 deletions mteb/benchmarks/benchmarks/__init__.py
Original file line number Diff line number Diff line change
Expand Up @@ -12,6 +12,7 @@
CODE_RAG,
ENCODECHKA,
FA_MTEB,
FA_MTEB_2,
JINA_VDR,
LONG_EMBED,
MIEB_ENG,
Expand Down Expand Up @@ -88,6 +89,7 @@
"NANOBEIR",
"C_MTEB",
"FA_MTEB",
"FA_MTEB_2",
"CHEMTEB",
"BEIR_NL",
"MIEB_ENG",
Expand Down
83 changes: 82 additions & 1 deletion mteb/benchmarks/benchmarks/benchmarks.py
Original file line number Diff line number Diff line change
Expand Up @@ -1361,7 +1361,7 @@

FA_MTEB = Benchmark(
name="MTEB(fas, v1)",
display_name="Farsi",
display_name="Farsi Legacy",
icon="https://github.com/lipis/flag-icons/raw/260c91531be024944c6514130c5defb2ebb02b7d/flags/4x3/ir.svg",
tasks=get_tasks(
languages=["fas"],
Expand Down Expand Up @@ -1448,6 +1448,87 @@
contacts=["mehran-sarmadi", "ERfun", "morteza20"],
)

FA_MTEB_2 = Benchmark(
name="MTEB(fas, v2)",
display_name="Farsi",
icon="https://github.com/lipis/flag-icons/raw/260c91531be024944c6514130c5defb2ebb02b7d/flags/4x3/ir.svg",
tasks=get_tasks(
languages=["fas"],
tasks=[
# Classification
"PersianFoodSentimentClassification",
"SynPerChatbotConvSAClassification",
"SynPerChatbotConvSAToneChatbotClassification",
"SynPerChatbotConvSAToneUserClassification",
"SynPerChatbotSatisfactionLevelClassification",
"SynPerTextToneClassification.v3",
"SIDClassification.v2",
"DeepSentiPers.v2",
"PersianTextEmotion.v2",
"NLPTwitterAnalysisClassification.v2",
"DigikalamagClassification",
"MassiveIntentClassification",
"MassiveScenarioClassification",
"StyleClassification",
"PerShopDomainClassification",
"PerShopIntentClassification",
# Clustering
"BeytooteClustering",
"DigikalamagClustering",
"HamshahriClustring",
"NLPTwitterAnalysisClustering",
"SIDClustring",
# PairClassification
"FarsTail",
"SynPerChatbotRAGFAQPC",
"FarsiParaphraseDetection",
"SynPerTextKeywordsPC",
"SynPerQAPC",
"ParsinluEntail",
"ParsinluQueryParaphPC",
# Reranking
"MIRACLReranking",
"WikipediaRerankingMultilingual",
# Retrieval
"SynPerQARetrieval",
"SynPerChatbotRAGFAQRetrieval",
"PersianWebDocumentRetrieval",
"WikipediaRetrievalMultilingual",
"MIRACLRetrievalHardNegatives",
"HotpotQA-FaHardNegatives",
"MSMARCO-FaHardNegatives",
"NQ-FaHardNegatives",
"ArguAna-Fa.v2",
"FiQA2018-Fa.v2",
"QuoraRetrieval-Fa.v2",
"SCIDOCS-Fa.v2",
"SciFact-Fa.v2",
"TRECCOVID-Fa.v2",
"FEVER-FaHardNegatives",
"NeuCLIR2023RetrievalHardNegatives",
"WebFAQRetrieval",
# STS
"Farsick",
"SynPerSTS",
# SummaryRetrieval
"SAMSumFa",
"SynPerChatbotSumSRetrieval",
"SynPerChatbotRAGSumSRetrieval",
],
),
description="The Persian Massive Text Embedding Benchmark (FaMTEB) is a comprehensive benchmark for Persian text embeddings covering 7 tasks and 50+ datasets. In version 2, we have optimized large datasets to make them more manageable and accessible, removed low-quality datasets, and added higher-quality data to improve the overall benchmark. For more details on the improvements, see the main PR comment: [main PR](https://github.com/embeddings-benchmark/mteb/pull/3157).",
reference="https://arxiv.org/abs/2502.11571",
citation=r"""
@article{zinvandi2025famteb,
author = {Zinvandi, Erfan and Alikhani, Morteza and Sarmadi, Mehran and Pourbahman, Zahra and Arvin, Sepehr and Kazemi, Reza and Amini, Arash},
journal = {arXiv preprint arXiv:2502.11571},
title = {Famteb: Massive text embedding benchmark in persian language},
year = {2025},
}
""",
contacts=["mehran-sarmadi", "ERfun", "morteza20"],
)

CHEMTEB = Benchmark(
name="ChemTEB",
display_name="Chemical",
Expand Down
8 changes: 6 additions & 2 deletions mteb/leaderboard/benchmark_selector.py
Original file line number Diff line number Diff line change
Expand Up @@ -74,11 +74,15 @@ class MenuEntry:
"MTEB(kor, v1)",
"MTEB(pol, v1)",
"MTEB(rus, v1)",
"MTEB(fas, v1)",
"MTEB(fas, v2)",
"VN-MTEB (vie, v1)",
]
)
+ [MenuEntry("Other", mteb.get_benchmarks(["MTEB(eng, v1)"]))],
+ [
MenuEntry(
"Other", mteb.get_benchmarks(["MTEB(eng, v1)", "MTEB(fas, v1)"])
)
],
),
MenuEntry(
"Miscellaneous", # All of these are retrieval benchmarks
Expand Down
50 changes: 23 additions & 27 deletions mteb/models/mcinext_models.py
Original file line number Diff line number Diff line change
Expand Up @@ -25,10 +25,12 @@
# Dataset task mappings with descriptions and task IDs
DATASET_TASKS = {
"PersianTextEmotion": ("دسته بندی , دسته بندی احساس متن", 1),
"PersianTextEmotion.v2": ("دسته بندی , دسته بندی احساس متن", 1),
"PersianFoodSentimentClassification": ("دسته بندی , تحلیل احساس رضایت متن", 1),
"SentimentDKSF": ("دسته بندی , تحلیل احساس رضایت متن", 1),
"MassiveIntentClassification": ("دسته بندی , دسته بندی موضوعی متن", 1),
"MassiveScenarioClassification": ("دسته بندی , دسته بندی موضوعی متن", 1),
"StyleClassification": ("دسته بندی , تشخیص لحن متن", 1),
"SynPerChatbotConvSAAnger": (
"دسته بندی , تحلیل احساس عصبانیت کاربر در مکالمه با چت بات",
1,
Expand Down Expand Up @@ -74,6 +76,7 @@
1,
),
"PersianTextTone": ("دسته بندی , تشخیص لحن متن", 1),
"SynPerTextToneClassification.v3": ("دسته بندی , تشخیص لحن متن", 1),
"SynPerChatbotToneUserClassification": (
"دسته بندی , تشخیص لحن کاربر در مکالمه با چت بات",
1,
Expand All @@ -94,28 +97,13 @@
"دسته بندی , تحلیل احساس رضایت کاربر در مکالمه با چت بات",
1,
),
"DigimagClassification": ("دسته بندی , دسته بندی موضوعی متن", 1),
"DigikalamagClassification": ("دسته بندی , دسته بندی موضوعی متن", 1),
"NLPTwitterAnalysisClassification": ("دسته بندی , دسته بندی موضوعی متن", 1),
"NLPTwitterAnalysisClassification.v2": ("دسته بندی , دسته بندی موضوعی متن", 1),
"SIDClassification": ("دسته بندی , دسته بندی موضوعی متن", 1),
"SIDClassification.v2": ("دسته بندی , دسته بندی موضوعی متن", 1),
"DeepSentiPers": ("دسته بندی , تحلیل احساس رضایت متن", 1),
"DigikalamagClassification": ("دسته بندی , دسته بندی موضوعی متن", 1),
"FarsTail": ("تشخیص ارتباط , آیا متن دوم شباهت معنایی با متن اول دارد ؟", 4),
"ParsinluEntail": ("تشخیص ارتباط , آیا متن دوم شباهت معنایی با متن اول دارد ؟", 4),
"ParsinluQueryParaphPC": (
"تشخیص ارتباط , آیا متن دوم شباهت معنایی با متن اول دارد ؟",
4,
),
"SynPerChatbotRAGFAQPC": (
"تشخیص ارتباط , متن اول مکالمه ی کاربر با چت بات است. آیا متن دوم خلاصه ی متن اول است ؟",
4,
),
"SynPerTextKeywordsPC": ("تشخیص ارتباط , آیا متن دوم پاسخ متن اول است ؟", 4),
"SynPerQAPC": ("تشخیص ارتباط , آیا متن دوم به متن اول مرتبط است ؟", 4),
"CExaPPC": ("تشخیص ارتباط , آیا متن دوم شباهت معنایی با متن اول دارد ؟", 4),
"FarsiParaphraseDetection": (
"تشخیص ارتباط , آیا متن دوم شباهت معنایی با متن اول دارد ؟",
4,
),
"DeepSentiPers.v2": ("دسته بندی , تحلیل احساس رضایت متن", 1),
"Farsick": ("تشخیص ارتباط , آیا متن دوم شباهت معنایی با متن اول دارد ؟", 3),
"Query2Query": ("تشخیص ارتباط , آیا متن دوم شباهت معنایی با متن اول دارد ؟", 3),
"SynPerSTS": ("تشخیص ارتباط , آیا متن دوم شباهت معنایی با متن اول دارد ؟", 3),
Expand Down Expand Up @@ -150,14 +138,7 @@
"تشخیص ارتباط , متن اول مکالمه ی کاربر با چت بات است. آیا متن دوم موضوع استخراج شده ی متن اول است ؟",
3,
),
"SynPerChatbotRAGFAQRetrieval": (
"تشخیص ارتباط , آیا متن دوم به متن اول مرتبط است ؟",
3,
),
"PersianWebDocumentRetrieval": (
"تشخیص ارتباط , آیا متن دوم به متن اول مرتبط است ؟",
3,
),
"WebFAQRetrieval": ("تشخیص ارتباط , آیا متن دوم پاسخ متن اول است ؟", 3),
}

# Add all retrieval datasets with the same instruction and task ID
Expand Down Expand Up @@ -189,6 +170,21 @@
"Touche2020-Fa",
"MIRACLRetrieval",
"WikipediaRetrievalMultilingual",
"MIRACLRetrievalHardNegatives",
"HotpotQA-FaHardNegatives",
"MSMARCO-FaHardNegatives",
"NQ-FaHardNegatives",
"FEVER-FaHardNegatives",
"NeuCLIR2022RetrievalHardNegatives",
"NeuCLIR2023RetrievalHardNegatives",
"ArguAna-Fa.v2",
"FiQA2018-Fa.v2",
"SCIDOCS-Fa.v2",
"SciFact-Fa.v2",
"TRECCOVID-Fa.v2",
"Touche2020-Fa.v2",
"PersianWebDocumentRetrieval",
"SynPerChatbotRAGFAQRetrieval",
]

for dataset in RETRIEVAL_DATASETS:
Expand Down
Loading
Loading