Skip to content

أسئلة باللغة العربية تركز على الثقافة السعودية تم اختبارها على عدد من النماذج اللغوية الضخمة LLMs

License

Notifications You must be signed in to change notification settings

mznmel/Pico-Saudi-LLMs-Benchmark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Disclaimer: All the answers are generated by A.I. models with no human intervention. The liability of the answers is solely on the models and not on the project creator.

Pico-Saudi-LLMs-Benchmark

أهلاً وسهلاً، من الأسئلة المتكررة مؤخراً: ماهو أفضل نموذج لغوي يتعامل مع اللغة العربية؟ وسؤال آخر، أي نموذج لغوي يعمل يفهم الثقافة السعودية بشكل جيد؟ عادة للإجابة على هذا السؤال، نحتاج إجراء إختبارات يدوية ومقارنة النتائج بشكل يدوي، ولتسهيل العملية جمعت مجموعة من الأسئلة باللغة العربية وجزء كبير منها يتعلق بشكل مباشر بالثقافة السعودية وجربتها على عدد من النماذج اللغوية.

بإمكانك الإطلاع على الأسئلة و النتائج داخل المجلدات الموجودة في هذا المشروع، داخل المجلد حتجد قائمة الأسئلة بصيغة CSV و نتائج النماذج المختلفة في ملفات Markdown لتسهيل القراءة، كل ملف مسمى بإسم النموذج اللغوي الذي أنتج الإجابات.

التركيز في النسخة الأولى من مجموعة البيانات على الأسئلة البسيطة المباشرة فقط لإختبار قدرات النماذج على فهم الأسئلة والإجابة عليها بطريقة صحيحة.

الـ System Prompt لكل النماذج أثناء الإختبار هو:

You must provide all your responses exclusively in Arabic

لبعض النماذج أضفنا جملة

Plain Text Only

لتفادي الإجابات بصيغة Markdown أو HTML.

الهدف ليس عمل إختبار متكامل لهذه النماذج اللغوية بل فقط رؤية نتائجها للتمكن من مقارنتها بشكل بدائي سريع.

Company Model Name Parameters Results Link
Meta LLama 3.1 70B Meta LLama 3.1 70B Instruct
Meta LLama 3.1 405B Meta LLama 3.1 405B Instruct
Meta LLama 3.3 70B Meta LLama 3.3 70B Instruct
Google-DeepMind Gemma-2 2B Google-DeepMind Gemma-2 2b Instruct
Google-DeepMind Gemma-2 9B Google-DeepMind Gemma-2 9b Instruct
Google-DeepMind Gemma-2 27B Google-DeepMind Gemma-2 27b Instruct
Microsoft Phi-3 Mini 3.8B Microsoft Phi-3 Mini 3.8b Instruct
Microsoft Phi-3.5 Mini 3.8B Microsoft Phi-3.5 Mini 3.8b Instruct
CohereForAI Aya-Expanse 8B CohereForAI Aya-Expanse 8b
HuggingFace SmolLM2 135M HuggingFaceTB SmolLM2 135M Instruct
HuggingFace SmolLM2 360M HuggingFaceTB SmolLM2 360M Instruct
Alibaba Qwen-QwQ-Preview 32B Alibaba Qwen-QwQ-Preview 32B

About

أسئلة باللغة العربية تركز على الثقافة السعودية تم اختبارها على عدد من النماذج اللغوية الضخمة LLMs

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published