-
-
Notifications
You must be signed in to change notification settings - Fork 273
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Underthesea is great but VERY SLOW ! #185
Comments
@thusinh1969 What is your scenario? please give us more detail.
|
@thusinh1969 As an update, I'm working in this problem. The speed of word_tokenize function will be at least 2x faster. |
|
Mình đã chạy script này, đúng là tốc độ của underthesea chậm hơn rất nhiều so với pyvi (35k ms so với 93 ms). Mình sẽ xem xét vấn đề này và fix trong các phiên bản tiếp theo Cảm ơn @thanhhau097. |
@thusinh1969 , @thanhhau097 Mình vừa cập nhật bản underthesea 1.1.9a5, tốc độ tăng lên khoảng 70 lần :D. Mọi người cùng test thử nhé
underthesea 1.1.8: underthesea 1.1.9a5: |
@rain1024 Mình cũng đang định report lỗi Word Tokenizer rất chậm. Thì đọc được đến đây. Để mình thử tốc độ của 1.1.9a5 xem sao ^^. Cảm ơn bạn |
Input: 15.68 MB
Using underthesea 1.1.9a6: Using pyvi:
|
@kienvht Hiện tại thì underthesea có dùng nhiều features hơn pyvi, nên tốc độ chậm hơn một chút. Bạn có thử nghiệm với underthesea 1.1.8 không? |
cảm ơn @kienvht nhé |
Also, can you have a look at sentence tokenizer! It is pretty slow! I ran sent_tokenize on around 30.000 documents and it took about 30mins. However, I manage to solve this issue by multiprocessing. But still slow. Thanks a lot! |
@lhdung258 Thanks for your report. It's my mistake. The problem is I load my model (from disk, which is time consuming) every time the function underthesea/underthesea/sent_tokenize/__init__.py Lines 10 to 12 in 3663427
I will fix it in the next version of underthesea |
Excellent bạn ơi ... :)
Quen biết đầy Thiên Hạ, TRI KỶ được mấy người ... ------------------------- Muốn nhanh thì phải từ từ
Vào 02:19:35 GMT-7, Thứ Hai, 17 tháng 9, 2018, Vu Anh <[email protected]> đã viết:
@thusinh1969 , @thanhhau097 Mình vừa cập nhật bản underthesea 1.1.9a5, tốc độ tăng lên khoảng 70 lần :D. Mọi người cùng test thử nhé
from underthesea import word_tokenize
text = "Đầu giờ chiều ngày 7/9, trao đổi với Báo Giao thông, ông Nguyễn Ngọc Hùng, Giám đốc Sở Thông tin và Truyền thông tỉnh Gia Lai cho biết đã đọc thông tin trên Báo Gia Lai. Thông tin khá mù mờ nhưng rất được người dân quan tâm, ông Hùng nói và cho biết hôm nay họp cả ngày nên chưa kịp yêu cầu Báo Gia Lai báo cáo. Trước đó, báo điện tử Gia Lai đã đăng tải bài báo Một công dân Gia Lai khẳng định phát hiện địa điểm máy bay MH370 rơi. Bài báo thông tin: 4 năm trước, người đàn ông này lúc ấy đang làm ăn tại Đắk Nông trong lúc tình cờ tìm kiếm thông tin hình ảnh vệ tinh trên mạng bỗng thấy một chiếc máy bay có kích thước giống chiếc máy bay MH370 rơi trong một lòng hồ. Sau đó, anh đã quay lại hình ảnh và vị trí chiếc máy bay này trên Google Earth. Hiện nay, lòng hồ mực nước dâng cao, không thể quan sát bằng mắt thường nếu đi trên mặt hồ hoặc chụp ảnh qua vệ tinh. Người này sau đó đã đưa clip lên YouTube, đến nay có hơn 5.700 lượt xem (Tuy nhiên, vì nhiều lý do nên đã được gỡ xuống) nhưng không ai ý kiến gì. Gần đây qua báo chí anh thấy một người Anh đưa thông tin đã phát hiện được máy bay MH370 tại rừng rậm Campuchia. Qua hình ảnh, anh nhận thấy clip của họ giống clip của anh nhưng có dấu hiệu chỉnh sửa hình ảnh máy bay trong clip mà anh đưa lên mạng cách đây 4 năm, vậy nên anh quyết định công bố thông tin này cho báo điện tử Gia Lai. Cũng theo báo điện tử Gia Lai, chiếc máy bay được người này phát hiện đo được độ dài khoảng 60,78m, sải cánh 31,23m, máy bay còn nguyên vẹn, không bị vỡ, đầu cắm xuống lòng hồ. Kích thước này tương đồng với thông tin về chiếc máy bay MH370 của Hãng Hàng không Malaysia. Chiếc máy bay này rơi xuống nước ở độ sâu khoảng 30m và nhiều khả năng ngập dưới bùn 5-6m, chứ không phải nằm trong rừng rậm và không thuộc địa phận Campuchia. Qua hình ảnh có thể thấy cánh chiếc máy bay méo mó, không nhìn rõ, chứng tỏ có thể trước khi rơi, máy bay va chạm nhẹ vào cây rừng hoặc bị ngập sâu dưới bùn đất. Anh này thậm chí còn khẳng định chỉ cần 2-3 ngày là tìm thấy chính xác vị trí chiếc máy bay MH370. Nếu Chính phủ Malaysia đồng ý anh sẽ xin phép các cơ quan chức năng thuê thợ lặn tìm kiếm. Việc tìm kiếm này nếu không đúng thì hãng hàng không Malaysia cũng không mất gì, toàn bộ chi phí người này sẽ chịu." * 8
import time
start = time.time()
word_tokenize(text)
end = time.time()
print(end - start)
Version 1.1.8: 71.851 s
Version 1.1.9a5: 0.804 s
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or mute the thread.
|
WOW !!! |
(notify nhẹ) Hiện tại mình đang cố gắng làm việc để cải thiện issue này, ý tưởng hiện tại là sử dụng rust để tăng tốc phần tiền xử lý feature trước khi đưa vào CRF. Đây là code bước đầu cho bạn nào muốn tìm hiểu thêm Issue này là một trăn trở rất lớn của mình :D. Hi vọng rằng sẽ fix được trong thời gian tới :D
Kết quả đánh giá tốc độ
|
Thông tin thêm: Bạn @huybik có làm một đánh giá độc lập khá thú vị ở đây https://huybik.github.io/Word-Tokenizer-Benchmark/ Dự án coccoc-tokenizer đang có tốc độ khá ấn tượng:
|
Cập nhật kết quả phiên bản Benchmark Version
Version 1.3.3
Theo thống kê ở đây, tốc độ của phiên bản mới @huybik Bạn có thể làm một đánh giá độc lập giúp underthesea về phiên bản mới này không? |
Ofcourse. Nhân tiện mình cũng sẽ update các tokenizer khác để so sánh với Underthesea. |
@rain1024 pip install --upgrade underthesea==1.3.4a0 lỗi |
@huybik Bạn dùng hệ điều hành gì , python environment nào (vevn, conda?) và python phiên bản bao nhiêu vậy? Update 1: Mình test lại thì phiên bản python 3.6 vẫn ok, nhưng python 3.9 lại gặp lỗi này Update 2: Mình đã hot fix lỗi này ở bản Bạn thử lại giúp mình nhé |
ERROR: Could not find a version that satisfies the requirement underthesea-core==0.0.4_alpha.8 (from underthesea) (from versions: 0.0.1, 0.0.2, 0.0.3, 0.0.4a0, 0.0.4a1, 0.0.4a2, 0.0.4a3, 0.0.4a4, 0.0.4a5, 0.0.4a6) Lỗi underthesea-core==0.0.4a8 chưa được upload. Mình dùng python 3.9.7, conda. |
@huybik Bạn dùng hệ điều hành gì nhỉ? Mình test python 3.9.7, conda trên Ubuntu vẫn ổn. Lạ thật |
Mybad mình dùng windows (sẽ chuyển qua linux sớm), mình mới check chưa có build cho windows ^^ https://pypi.org/project/underthesea_core/0.0.4_alpha.8/#files |
okie, để mình build thử một bản cho windows xem. Hi vọng sẽ works =)) |
@huybik Mình vừa update |
Thanks, install và chạy ok, mình sẽ làm review sớm. |
@rain1024 Post mình đã online ở https://huybik.github.io/Word-Tokenizer-Benchmark-followup/ . Cảm ơn bạn đã theo dõi. |
@huybik Cảm ơn bạn rất nhiều. Sắp tới mình sẽ tiếp tục tăng tốc và cải tiến độ chính xác của underthesea :D Hi vọng lúc đó bạn sẽ tiếp tục giúp underthesea thực hiện các đánh giá độc lập hữu ích như thế này |
@thusinh1969 @kienvht Hiện tại tốc độ tách từ của underthesea đã cải thiện. Hi vọng các bạn có thể dùng thử và góp ý cho underthesea nhé |
Underthesea is great but VERY SLOW ! Chậm quá không chạy nổi :( ... HELP !
The text was updated successfully, but these errors were encountered: