From 8126a5ee20accd0f47d2462401e0b39085c0c5dc Mon Sep 17 00:00:00 2001 From: Ahmed Almaghz <53489256+AhmedAlmaghz@users.noreply.github.com> Date: Thu, 22 Aug 2024 23:20:25 +0300 Subject: [PATCH 01/14] Add docs/source/ar/fast_tokenizers.md to Add_docs_source_ar_fast_tokenizers.md --- docs/source/ar/fast_tokenizers.md | 51 +++++++++++++++++++++++++++++++ 1 file changed, 51 insertions(+) create mode 100644 docs/source/ar/fast_tokenizers.md diff --git a/docs/source/ar/fast_tokenizers.md b/docs/source/ar/fast_tokenizers.md new file mode 100644 index 000000000000..8d97179016eb --- /dev/null +++ b/docs/source/ar/fast_tokenizers.md @@ -0,0 +1,51 @@ +# استخدام المحللون اللغويون من 🤗 Tokenizers + +يعتمد [`PreTrainedTokenizerFast`] على مكتبة [🤗 Tokenizers](https://huggingface.co/docs/tokenizers). يمكن تحميل المحللين اللغويين الذين تم الحصول عليهم من مكتبة 🤗 Tokenizers ببساطة شديدة في 🤗 Transformers. + +قبل الدخول في التفاصيل، دعونا نبدأ أولاً بإنشاء محلل لغوي وهمي في بضع سطور: + +```python +>>> from tokenizers import Tokenizer +>>> from tokenizers.models import BPE +>>> from tokenizers.trainers import BpeTrainer +>>> from tokenizers.pre_tokenizers import Whitespace + +>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]")) +>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]) + +>>> tokenizer.pre_tokenizer = Whitespace() +>>> files = [...] +>>> tokenizer.train(files, trainer) +``` + +الآن لدينا محلل لغوي مدرب على الملفات التي حددناها. يمكننا إما الاستمرار في استخدامه في وقت التشغيل هذا، أو حفظه في ملف JSON لإعادة استخدامه لاحقًا. + +## التحميل مباشرة من كائن المحلل اللغوي + +دعونا نرى كيف يمكننا الاستفادة من كائن المحلل اللغوي هذا في مكتبة 🤗 Transformers. تسمح فئة [`PreTrainedTokenizerFast`] بالتشغيل الفوري، من خلال قبول كائن *المحلل اللغوي* الذي تم إنشاؤه كحجة: + +```python +>>> from transformers import PreTrainedTokenizerFast + +>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer) +``` + +يمكن الآن استخدام هذا الكائن مع جميع الطرق التي تشترك فيها المحللات اللغوية لـ 🤗 Transformers! انتقل إلى [صفحة المحلل اللغوي](main_classes/tokenizer) لمزيد من المعلومات. + +## التحميل من ملف JSON + +لتحميل محلل لغوي من ملف JSON، دعونا نبدأ أولاً بحفظ محللنا اللغوي: + +```python +>>> tokenizer.save("tokenizer.json") +``` + +يمكن تمرير المسار الذي حفظنا به هذا الملف إلى طريقة تهيئة [`PreTrainedTokenizerFast`] باستخدام معلمة `tokenizer_file`: + +```python +>>> from transformers import PreTrainedTokenizerFast + +>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json") +``` + +يمكن الآن استخدام هذا الكائن مع جميع الطرق التي تشترك فيها المحللات اللغوية لـ 🤗 Transformers! انتقل إلى [صفحة المحلل اللغوي](main_classes/tokenizer) لمزيد من المعلومات. \ No newline at end of file From 3981041daf49d3542cdedbecedc1f86de6772bb1 Mon Sep 17 00:00:00 2001 From: Ahmed Almaghz <53489256+AhmedAlmaghz@users.noreply.github.com> Date: Thu, 10 Oct 2024 06:38:10 +0300 Subject: [PATCH 02/14] Update _toctree.yml --- docs/source/ar/_toctree.yml | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/docs/source/ar/_toctree.yml b/docs/source/ar/_toctree.yml index 6f7899b53b85..a1c08603d910 100644 --- a/docs/source/ar/_toctree.yml +++ b/docs/source/ar/_toctree.yml @@ -109,8 +109,8 @@ # title: الإرشاد # title: أدلة المهام # - sections: -# - local: fast_tokenizers -# title: استخدم برامج التجزئة السريعة من 🤗 Tokenizers + - local: fast_tokenizers + title: استخدم برامج التجزئة السريعة من 🤗 Tokenizers # - local: multilingual # title: تشغيل الاستنتاج باستخدام نماذج متعددة اللغات # - local: create_a_model From a5ef29ea47ff3a8dfd39fa68928cc1e306879040 Mon Sep 17 00:00:00 2001 From: Ahmed Almaghz <53489256+AhmedAlmaghz@users.noreply.github.com> Date: Thu, 10 Oct 2024 06:38:59 +0300 Subject: [PATCH 03/14] Update _toctree.yml --- docs/source/ar/_toctree.yml | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/docs/source/ar/_toctree.yml b/docs/source/ar/_toctree.yml index a1c08603d910..7db24582584a 100644 --- a/docs/source/ar/_toctree.yml +++ b/docs/source/ar/_toctree.yml @@ -108,7 +108,7 @@ # title: دليل إرشادي لمحفزات النماذج اللغوية الكبيرة # title: الإرشاد # title: أدلة المهام -# - sections: +- sections: - local: fast_tokenizers title: استخدم برامج التجزئة السريعة من 🤗 Tokenizers # - local: multilingual @@ -139,7 +139,7 @@ # title: استكشاف الأخطاء وإصلاحها # - local: gguf # title: التوافق مع ملفات GGUF -# title: أدلة المطورين + title: أدلة المطورين # - sections: # - local: quantization/overview # title: نظرة عامة From fb3e9705ec9ebc41b00653dedf0d60dddd7ae96a Mon Sep 17 00:00:00 2001 From: Ahmed Almaghz <53489256+AhmedAlmaghz@users.noreply.github.com> Date: Sat, 26 Oct 2024 22:02:37 +0300 Subject: [PATCH 04/14] Update docs/source/ar/_toctree.yml Co-authored-by: Abdullah Mohammed <554032+abodacs@users.noreply.github.com> --- docs/source/ar/_toctree.yml | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ar/_toctree.yml b/docs/source/ar/_toctree.yml index 7db24582584a..bd45925c64cb 100644 --- a/docs/source/ar/_toctree.yml +++ b/docs/source/ar/_toctree.yml @@ -110,7 +110,7 @@ # title: أدلة المهام - sections: - local: fast_tokenizers - title: استخدم برامج التجزئة السريعة من 🤗 Tokenizers + title: استخدم مجزئيات النصوص السريعة من 🤗 Tokenizers # - local: multilingual # title: تشغيل الاستنتاج باستخدام نماذج متعددة اللغات # - local: create_a_model From 283beef16619d89d6daddfa87f9f3c8587bcd211 Mon Sep 17 00:00:00 2001 From: Ahmed Almaghz <53489256+AhmedAlmaghz@users.noreply.github.com> Date: Sat, 26 Oct 2024 22:02:58 +0300 Subject: [PATCH 05/14] Update docs/source/ar/fast_tokenizers.md Co-authored-by: Abdullah Mohammed <554032+abodacs@users.noreply.github.com> --- docs/source/ar/fast_tokenizers.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ar/fast_tokenizers.md b/docs/source/ar/fast_tokenizers.md index 8d97179016eb..ab3da0a495d3 100644 --- a/docs/source/ar/fast_tokenizers.md +++ b/docs/source/ar/fast_tokenizers.md @@ -1,6 +1,6 @@ # استخدام المحللون اللغويون من 🤗 Tokenizers -يعتمد [`PreTrainedTokenizerFast`] على مكتبة [🤗 Tokenizers](https://huggingface.co/docs/tokenizers). يمكن تحميل المحللين اللغويين الذين تم الحصول عليهم من مكتبة 🤗 Tokenizers ببساطة شديدة في 🤗 Transformers. +يعتمد [`PreTrainedTokenizerFast`] على مكتبة [🤗 Tokenizers](https://huggingface.co/docs/tokenizers). يمكن تحميل المجزئات اللغويين الذين تم الحصول عليهم من مكتبة 🤗 Tokenizers ببساطة شديدة في 🤗 Transformers. قبل الدخول في التفاصيل، دعونا نبدأ أولاً بإنشاء محلل لغوي وهمي في بضع سطور: From 23bd8d44f39dba05a8d1119a399691a9841e30d0 Mon Sep 17 00:00:00 2001 From: Ahmed Almaghz <53489256+AhmedAlmaghz@users.noreply.github.com> Date: Sat, 26 Oct 2024 22:03:12 +0300 Subject: [PATCH 06/14] Update docs/source/ar/fast_tokenizers.md Co-authored-by: Abdullah Mohammed <554032+abodacs@users.noreply.github.com> --- docs/source/ar/fast_tokenizers.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ar/fast_tokenizers.md b/docs/source/ar/fast_tokenizers.md index ab3da0a495d3..cac74bd771e9 100644 --- a/docs/source/ar/fast_tokenizers.md +++ b/docs/source/ar/fast_tokenizers.md @@ -18,7 +18,7 @@ >>> tokenizer.train(files, trainer) ``` -الآن لدينا محلل لغوي مدرب على الملفات التي حددناها. يمكننا إما الاستمرار في استخدامه في وقت التشغيل هذا، أو حفظه في ملف JSON لإعادة استخدامه لاحقًا. +الآن لدينا مُجزىء لغوي مدرب على الملفات التي حددناها. يمكننا إما الاستمرار في استخدامه في وقت التشغيل هذا، أو حفظه في ملف JSON لإعادة استخدامه لاحقًا. ## التحميل مباشرة من كائن المحلل اللغوي From 8368ff1ab20a5864312edde3346c7412fb666185 Mon Sep 17 00:00:00 2001 From: Ahmed Almaghz <53489256+AhmedAlmaghz@users.noreply.github.com> Date: Sat, 26 Oct 2024 22:03:41 +0300 Subject: [PATCH 07/14] Update docs/source/ar/fast_tokenizers.md Co-authored-by: Abdullah Mohammed <554032+abodacs@users.noreply.github.com> --- docs/source/ar/fast_tokenizers.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ar/fast_tokenizers.md b/docs/source/ar/fast_tokenizers.md index cac74bd771e9..c756d8c242c1 100644 --- a/docs/source/ar/fast_tokenizers.md +++ b/docs/source/ar/fast_tokenizers.md @@ -1,4 +1,4 @@ -# استخدام المحللون اللغويون من 🤗 Tokenizers +# استخدام مجزئيات النصوص من 🤗 Tokenizers يعتمد [`PreTrainedTokenizerFast`] على مكتبة [🤗 Tokenizers](https://huggingface.co/docs/tokenizers). يمكن تحميل المجزئات اللغويين الذين تم الحصول عليهم من مكتبة 🤗 Tokenizers ببساطة شديدة في 🤗 Transformers. From da75b0dc21a81a185c23719d0d720e51a17d9c8c Mon Sep 17 00:00:00 2001 From: Ahmed Almaghz <53489256+AhmedAlmaghz@users.noreply.github.com> Date: Sat, 26 Oct 2024 22:03:55 +0300 Subject: [PATCH 08/14] Update docs/source/ar/fast_tokenizers.md Co-authored-by: Abdullah Mohammed <554032+abodacs@users.noreply.github.com> --- docs/source/ar/fast_tokenizers.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ar/fast_tokenizers.md b/docs/source/ar/fast_tokenizers.md index c756d8c242c1..49a038057425 100644 --- a/docs/source/ar/fast_tokenizers.md +++ b/docs/source/ar/fast_tokenizers.md @@ -2,7 +2,7 @@ يعتمد [`PreTrainedTokenizerFast`] على مكتبة [🤗 Tokenizers](https://huggingface.co/docs/tokenizers). يمكن تحميل المجزئات اللغويين الذين تم الحصول عليهم من مكتبة 🤗 Tokenizers ببساطة شديدة في 🤗 Transformers. -قبل الدخول في التفاصيل، دعونا نبدأ أولاً بإنشاء محلل لغوي وهمي في بضع سطور: +قبل الدخول في التفاصيل، دعونا نبدأ أولاً بإنشاء مُجزىء لغوي تجريبي في بضع سطور: ```python >>> from tokenizers import Tokenizer From 752cf05ed827e67dc0cc35dfdd4b1575da7e4336 Mon Sep 17 00:00:00 2001 From: Ahmed Almaghz <53489256+AhmedAlmaghz@users.noreply.github.com> Date: Sat, 26 Oct 2024 22:04:17 +0300 Subject: [PATCH 09/14] Update docs/source/ar/fast_tokenizers.md Co-authored-by: Abdullah Mohammed <554032+abodacs@users.noreply.github.com> --- docs/source/ar/fast_tokenizers.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ar/fast_tokenizers.md b/docs/source/ar/fast_tokenizers.md index 49a038057425..ea382f3b1e10 100644 --- a/docs/source/ar/fast_tokenizers.md +++ b/docs/source/ar/fast_tokenizers.md @@ -20,7 +20,7 @@ الآن لدينا مُجزىء لغوي مدرب على الملفات التي حددناها. يمكننا إما الاستمرار في استخدامه في وقت التشغيل هذا، أو حفظه في ملف JSON لإعادة استخدامه لاحقًا. -## التحميل مباشرة من كائن المحلل اللغوي +## تحميل مُجزئ النّصوص مُباشرةً دعونا نرى كيف يمكننا الاستفادة من كائن المحلل اللغوي هذا في مكتبة 🤗 Transformers. تسمح فئة [`PreTrainedTokenizerFast`] بالتشغيل الفوري، من خلال قبول كائن *المحلل اللغوي* الذي تم إنشاؤه كحجة: From 3212235248022521aa7bfcdd91e8e0f48f6f7e78 Mon Sep 17 00:00:00 2001 From: Ahmed Almaghz <53489256+AhmedAlmaghz@users.noreply.github.com> Date: Sat, 26 Oct 2024 22:04:31 +0300 Subject: [PATCH 10/14] Update docs/source/ar/fast_tokenizers.md Co-authored-by: Abdullah Mohammed <554032+abodacs@users.noreply.github.com> --- docs/source/ar/fast_tokenizers.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ar/fast_tokenizers.md b/docs/source/ar/fast_tokenizers.md index ea382f3b1e10..d9588fc6ff04 100644 --- a/docs/source/ar/fast_tokenizers.md +++ b/docs/source/ar/fast_tokenizers.md @@ -22,7 +22,7 @@ ## تحميل مُجزئ النّصوص مُباشرةً -دعونا نرى كيف يمكننا الاستفادة من كائن المحلل اللغوي هذا في مكتبة 🤗 Transformers. تسمح فئة [`PreTrainedTokenizerFast`] بالتشغيل الفوري، من خلال قبول كائن *المحلل اللغوي* الذي تم إنشاؤه كحجة: +دعونا نرى كيف يمكننا الاستفادة من كائن (مُجزئ النصوص) في مكتبة 🤗 Transformers. تسمح فئة [`PreTrainedTokenizerFast`] سهولة إنشاء *tokenizer*، من خلال قبول كائن *المُجزئ النصوص* مُهيّأ مُسبقًا كمعامل: ```python >>> from transformers import PreTrainedTokenizerFast From 267ac7de062dc993aac46f059cce4fab34757717 Mon Sep 17 00:00:00 2001 From: Ahmed Almaghz <53489256+AhmedAlmaghz@users.noreply.github.com> Date: Sat, 26 Oct 2024 22:04:50 +0300 Subject: [PATCH 11/14] Update docs/source/ar/fast_tokenizers.md Co-authored-by: Abdullah Mohammed <554032+abodacs@users.noreply.github.com> --- docs/source/ar/fast_tokenizers.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ar/fast_tokenizers.md b/docs/source/ar/fast_tokenizers.md index d9588fc6ff04..442f45aa9323 100644 --- a/docs/source/ar/fast_tokenizers.md +++ b/docs/source/ar/fast_tokenizers.md @@ -30,7 +30,7 @@ >>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer) ``` -يمكن الآن استخدام هذا الكائن مع جميع الطرق التي تشترك فيها المحللات اللغوية لـ 🤗 Transformers! انتقل إلى [صفحة المحلل اللغوي](main_classes/tokenizer) لمزيد من المعلومات. +يمكن الآن استخدام هذا الكائن مع جميع الطرق المُشتركة بين مُجزّئي النّصوص لـ 🤗 Transformers! انتقل إلى [صفحة مُجزّئ النّصوص](main_classes/tokenizer) لمزيد من المعلومات. ## التحميل من ملف JSON From 791c92427e7c2f8c8025c6289e560371d951b610 Mon Sep 17 00:00:00 2001 From: Ahmed Almaghz <53489256+AhmedAlmaghz@users.noreply.github.com> Date: Sat, 26 Oct 2024 22:05:01 +0300 Subject: [PATCH 12/14] Update docs/source/ar/fast_tokenizers.md Co-authored-by: Abdullah Mohammed <554032+abodacs@users.noreply.github.com> --- docs/source/ar/fast_tokenizers.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ar/fast_tokenizers.md b/docs/source/ar/fast_tokenizers.md index 442f45aa9323..292d38751248 100644 --- a/docs/source/ar/fast_tokenizers.md +++ b/docs/source/ar/fast_tokenizers.md @@ -34,7 +34,7 @@ ## التحميل من ملف JSON -لتحميل محلل لغوي من ملف JSON، دعونا نبدأ أولاً بحفظ محللنا اللغوي: +لتحميل مُجزّئ النص من ملف JSON، دعونا نبدأ أولاً بحفظ مُجزّئ النّصوص: ```python >>> tokenizer.save("tokenizer.json") From 0ea6f4875ad96f43b38fcb2a88d5227be9479d7d Mon Sep 17 00:00:00 2001 From: Ahmed Almaghz <53489256+AhmedAlmaghz@users.noreply.github.com> Date: Sat, 26 Oct 2024 22:05:19 +0300 Subject: [PATCH 13/14] Update docs/source/ar/fast_tokenizers.md Co-authored-by: Abdullah Mohammed <554032+abodacs@users.noreply.github.com> --- docs/source/ar/fast_tokenizers.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ar/fast_tokenizers.md b/docs/source/ar/fast_tokenizers.md index 292d38751248..88bad9c8de5b 100644 --- a/docs/source/ar/fast_tokenizers.md +++ b/docs/source/ar/fast_tokenizers.md @@ -40,7 +40,7 @@ >>> tokenizer.save("tokenizer.json") ``` -يمكن تمرير المسار الذي حفظنا به هذا الملف إلى طريقة تهيئة [`PreTrainedTokenizerFast`] باستخدام معلمة `tokenizer_file`: +يمكن تمرير المسار الذي حفظنا به هذا الملف إلى طريقة تهيئة [`PreTrainedTokenizerFast`] باستخدام المُعامل `tokenizer_file`: ```python >>> from transformers import PreTrainedTokenizerFast From 5b10d2e34bec9c934ed11657135771473c301f05 Mon Sep 17 00:00:00 2001 From: Ahmed Almaghz <53489256+AhmedAlmaghz@users.noreply.github.com> Date: Sat, 26 Oct 2024 22:05:27 +0300 Subject: [PATCH 14/14] Update docs/source/ar/fast_tokenizers.md Co-authored-by: Abdullah Mohammed <554032+abodacs@users.noreply.github.com> --- docs/source/ar/fast_tokenizers.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/ar/fast_tokenizers.md b/docs/source/ar/fast_tokenizers.md index 88bad9c8de5b..539712969e81 100644 --- a/docs/source/ar/fast_tokenizers.md +++ b/docs/source/ar/fast_tokenizers.md @@ -48,4 +48,4 @@ >>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json") ``` -يمكن الآن استخدام هذا الكائن مع جميع الطرق التي تشترك فيها المحللات اللغوية لـ 🤗 Transformers! انتقل إلى [صفحة المحلل اللغوي](main_classes/tokenizer) لمزيد من المعلومات. \ No newline at end of file +يمكن الآن استخدام هذا الكائن مع جميع الطرق التي تشترك فيها مُجزّئي النّصوص لـ 🤗 Transformers! انتقل إلى [صفحة مُجزّئ النص](main_classes/tokenizer) لمزيد من المعلومات. \ No newline at end of file