Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Arabic + English Language #1934

Closed
MariamHijazi opened this issue Sep 27, 2018 · 7 comments
Closed

Arabic + English Language #1934

MariamHijazi opened this issue Sep 27, 2018 · 7 comments

Comments

@MariamHijazi
Copy link

I'm trying to use Tesseract for multiple language document. I use English+ Arabic tessData for Arabic + English file
traditionalarabic
I get Result contain Arabic but all English word are digits

Result :

'جوجل 600916 " يستعد لاقتحام أدمغتنا
الاحد 9 سبتمبر 2018

الاقتصادية" من الرياض"

هل حَدث وأن بحَثث عن ن عبر وتفاجأت باقترإحخات عديدة لاحقاً على حسابك في ?Facebook «lsasis? لشركاتٌٍ توفر مُنْتَجَاتٍ مُشَابِهَة؟ الأمر
ليس صُدفة؛ ولكن ذلك يندرج ضمن استراتيجيات يتبنّاها عَمالقة التقنية للتأثير في قراراتنا الشّرائية.

وساهمت الشّبكة العنكبوتية في جَعل عملية جمع بياناث المستخدمين أكثر سهولة من أي وقت مضى؛ مع ترك هؤلاء لآثارهم الرقمية في العديد من المواقع
والتطبيقات» والتي تكون هدفا لشركات التكنولوجيا المَدعومة بترسانة من تقنيات الذكاء الاضطناعي 10161196006 ل2أ00تائم.

وبيّتت دراسة صَادرة عن باحثّن في جامعة 'برينستون" الأميركية؛ أن 6009/6 ترصد تحرّكات ما يزيد عن ملياري شخص حول العالم؛ ممن يشتعملون
أجهزة وهواتف تعمل نظام التشغيل الشُهير ?"Android"? بحسب ما ذكرت

وأكد تقرير لوكالة الأسوشيتد برس 55٤۲م ?Assiciated? أن الكثير من خدمات جوجل على أجهزة آيفون 1511006 وآندرويد 70 تخرّن بيانات

مواقع المستخدمين» حتى وإن قاموا بإيقاف تشغيل خدمات تحديد الموقع الجغرافي بتغيير إعدادات الخصوصية المتوفرة في تلك الأجهزة.
Is there any solution for this problem ?
Regards.

@MariamHijazi MariamHijazi changed the title Arabic Language Arabic + English Language Sep 27, 2018
@amitdo
Copy link
Collaborator

amitdo commented Sep 27, 2018

Please post the full command you used.

@MariamHijazi
Copy link
Author

MariamHijazi commented Sep 27, 2018

I'm using TessBaseAPI in C# tesseract.net version 4.0.16 which is installed from Nuget
with this Code.
string dataPath = ConfigurationManager.AppSettings["DataSet"];
string language = "ara+eng";
OcrEngineMode oem = OcrEngineMode.DEFAULT;
PageSegmentationMode psm = PageSegmentationMode.AUTO_OSD;
TessBaseAPI tessBaseAPI = new TessBaseAPI(dataPath, language, oem, psm);
tessBaseAPI.Init(dataPath, language, oem);
Pix pix = tessBaseAPI.SetImage(imageFilePath);
if (pix != null)
{
tessBaseAPI.Recognize();
stringBuilder = tessBaseAPI.GetUTF8Text();
tessBaseAPI.Dispose();
pix.Dispose();
}

@amitdo
Copy link
Collaborator

amitdo commented Sep 27, 2018

4.0.0 alpha is too old. Use 4.0.0 beta 4 or the latest commit in the master branch.

Try Arabic.trainedata from best/fast repos.

@zdenop
Copy link
Contributor

zdenop commented Sep 30, 2018

There has be several report like this (e.g. #235). Please search for "Arabic" in issue tracker.
Anyway when I tried 4.0 version with tessdata_best I got IMO better result
i1934.txt, but I am not familiar with Arabic ;-)

@zdenop zdenop closed this as completed Sep 30, 2018
@MariamHijazi
Copy link
Author

Actually , I'm trying to get it in different Arabic font type, in some I get English word but in another I get it as digits
for example : in this image with Arabic Traditional font type
traditionalarabic
I get all text

TraditionalArabic
?يستعد لاقتحام أدمغتنا? " Goo gle Js"
2018 ?الاحد 9 سبتمير?

الاقتصادية" من الرياض"

هل حدث وأن بحثت عن منتج معين عبر الإنترنت وتفاجأت باقتراحات عديدة لاحقا على حسابك في ?Facebook Sym? لشركات توفر منتجات مشابحة؟ الأمر ليس صدفةء ولكن ذلك يندرج
ضمن استراتيجيات يتبناها عمالقة التقنية للتأثير في قراراتنا الشرائية.
وساهمت الشبكة العنكبوتية في جعل عملية جمع بيانات المستخدمين ?ST? سهولة من أي وقت مضى» مع ترك هؤلاء لآثارهم الرقمية في العديد من المواقع والتطبيقات؛ والتي تكون هدفا لشركات

التكنولوجيا ?sop? بترسانة من تقنيات الذكاء الاصطاعي ?«Artificial intelligence?
وسّت دراسة صادرة عن باحثين في جامعة "برينستون" الأميركية؛ أن ,5008 ترصد تحركات ما يزيد عن ملياري شخص حول العام ممن يستعملون أجهزة وهواتف تعمل بنظام التشغيل
الشهير ?"Android"? بحسب ما ذكرت ?."Skynews"?

وأكد تقرير لوكالة الأسوشيتد برس ?Assiciated press? أن الكثير من خدمات جوجل على أجهزة يفون وآندرويد 10010 بيانات مواقع اللستخدمين›

حت وإن قاموا بإيقاف تشغيل خدمات تحديد الموقع الجغراتي بتغيير إعدادات الخصوصية المتوفرة في تلك الأجهزة.

.
but when I try another like Arabic Simplified font type like this:
simplifiedarabic

I get English like digits:

SimplifiedArabic
?"جوجل 600916 " يستعد لاقتحام أدمغتنا?
2018 ?الاحد 9 سبتمبر?

الاقتصادية" من الرياض"

هل حدث وأن بحثت عن منتج معين عبر الإنترنت وتفاجأت باقتراحات عديدة لاحقا على حسابك في فيسبوك 808500" لشركات توفر منتجات مشابهة؟ الأمر
ليس صدفة؛ ولكن ذلك يندرج ضمن استراتيجيات يتبناها عمالقة التقنية للتأثير في قراراتنا الشرائية.

?lugs? الشبكة العنكبوتية في جعل عملية جمع بيانات المستخدمين أكثر سهولة من أي وقت مضى؛ مع ترك هؤلاء لآثارهم الرقمية في العديد من المواقع
والتطبيقات» والتي ?a? هدفا لشركات التكنولوجيا المدعومة بترسانة من تقنيات الذكاء الاصطناعي ?Artificial intelligence?

?وبيّنت دراسة صادرة ,عن باحثين في جامعة "برينستون" الأميركية؛ أن 60096 ترصد تحركات ما يزيد عن ملياري شخص حول العالم» ممن يستعملون
أجهزة وهواتف تعمل بنظام التشغيل الشهير "8001010" بحسب ما ذكرت ?.'Skynews"?

?وأكد تقرير لوكالة الأسوشيتد برس 01885 0551018460 أن الكثير من خدمات جوجل على أجهزة آيفون 1011006 وآندرويد ?Android? تخزّن بيانات

?مواقع المستخدمين» حتى وإن قاموا بإيقاف تشغيل خدمات تحديد الموقع الجغرافي بتغيير إعدادات الخصوصية المتوفرة في تلك الأجهزة.

?

?
I'm using Arabic + English tessdata_best

@zdenop
Copy link
Contributor

zdenop commented Oct 1, 2018

Which version of tesseract?

@MariamHijazi
Copy link
Author

I use tesseract.net.4.0.0.16 with leptonica.net.1.75.0.6 and try it with Tesseract Open Source OCR Engine vv4.0.0-beta.4.20180912 with Leptonica the same

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants