Skip to content
Merged
Show file tree
Hide file tree
Changes from 4 commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
8 changes: 4 additions & 4 deletions docs/source/ar/_toctree.yml
Original file line number Diff line number Diff line change
Expand Up @@ -108,9 +108,9 @@
# title: دليل إرشادي لمحفزات النماذج اللغوية الكبيرة
# title: الإرشاد
# title: أدلة المهام
# - sections:
# - local: fast_tokenizers
# title: استخدم برامج التجزئة السريعة من 🤗 Tokenizers
- sections:
- local: fast_tokenizers
title: استخدم برامج التجزئة السريعة من 🤗 Tokenizers
Comment thread
AhmedAlmaghz marked this conversation as resolved.
Outdated
# - local: multilingual
# title: تشغيل الاستنتاج باستخدام نماذج متعددة اللغات
# - local: create_a_model
Expand Down Expand Up @@ -139,7 +139,7 @@
# title: استكشاف الأخطاء وإصلاحها
# - local: gguf
# title: التوافق مع ملفات GGUF
# title: أدلة المطورين
title: أدلة المطورين
# - sections:
# - local: quantization/overview
# title: نظرة عامة
Expand Down
51 changes: 51 additions & 0 deletions docs/source/ar/fast_tokenizers.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,51 @@
# استخدام المحللون اللغويون من 🤗 Tokenizers
Comment thread
AhmedAlmaghz marked this conversation as resolved.
Outdated

يعتمد [`PreTrainedTokenizerFast`] على مكتبة [🤗 Tokenizers](https://huggingface.co/docs/tokenizers). يمكن تحميل المحللين اللغويين الذين تم الحصول عليهم من مكتبة 🤗 Tokenizers ببساطة شديدة في 🤗 Transformers.
Comment thread
AhmedAlmaghz marked this conversation as resolved.
Outdated

قبل الدخول في التفاصيل، دعونا نبدأ أولاً بإنشاء محلل لغوي وهمي في بضع سطور:
Comment thread
AhmedAlmaghz marked this conversation as resolved.
Outdated

```python
>>> from tokenizers import Tokenizer
>>> from tokenizers.models import BPE
>>> from tokenizers.trainers import BpeTrainer
>>> from tokenizers.pre_tokenizers import Whitespace

>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])

>>> tokenizer.pre_tokenizer = Whitespace()
>>> files = [...]
>>> tokenizer.train(files, trainer)
```

الآن لدينا محلل لغوي مدرب على الملفات التي حددناها. يمكننا إما الاستمرار في استخدامه في وقت التشغيل هذا، أو حفظه في ملف JSON لإعادة استخدامه لاحقًا.
Comment thread
AhmedAlmaghz marked this conversation as resolved.
Outdated

## التحميل مباشرة من كائن المحلل اللغوي
Comment thread
AhmedAlmaghz marked this conversation as resolved.
Outdated

دعونا نرى كيف يمكننا الاستفادة من كائن المحلل اللغوي هذا في مكتبة 🤗 Transformers. تسمح فئة [`PreTrainedTokenizerFast`] بالتشغيل الفوري، من خلال قبول كائن *المحلل اللغوي* الذي تم إنشاؤه كحجة:
Comment thread
AhmedAlmaghz marked this conversation as resolved.
Outdated

```python
>>> from transformers import PreTrainedTokenizerFast

>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)
```

يمكن الآن استخدام هذا الكائن مع جميع الطرق التي تشترك فيها المحللات اللغوية لـ 🤗 Transformers! انتقل إلى [صفحة المحلل اللغوي](main_classes/tokenizer) لمزيد من المعلومات.
Comment thread
AhmedAlmaghz marked this conversation as resolved.
Outdated

## التحميل من ملف JSON

لتحميل محلل لغوي من ملف JSON، دعونا نبدأ أولاً بحفظ محللنا اللغوي:
Comment thread
AhmedAlmaghz marked this conversation as resolved.
Outdated

```python
>>> tokenizer.save("tokenizer.json")
```

يمكن تمرير المسار الذي حفظنا به هذا الملف إلى طريقة تهيئة [`PreTrainedTokenizerFast`] باستخدام معلمة `tokenizer_file`:
Comment thread
AhmedAlmaghz marked this conversation as resolved.
Outdated

```python
>>> from transformers import PreTrainedTokenizerFast

>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")
```

يمكن الآن استخدام هذا الكائن مع جميع الطرق التي تشترك فيها المحللات اللغوية لـ 🤗 Transformers! انتقل إلى [صفحة المحلل اللغوي](main_classes/tokenizer) لمزيد من المعلومات.
Comment thread
AhmedAlmaghz marked this conversation as resolved.
Outdated