Skip to content

用大模型批量处理数据,现支持各种大模型做OCR,支持通义千问, 月之暗面, 百度飞桨OCR, OpenAI 和LLAVA。Use LLM to generate or clean data for academic use. Support OCR with qwen, moonshot, PaddleOCR, OpenAI, Llava.

License

Notifications You must be signed in to change notification settings

jackfsuia/LLM-Data-Cleaner

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

61 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

LLM-Data-Cleaner

简体中文 | English

更新

背景

未来人类会用大模型预加工所有数据。本项目旨在结合大模型来批量预处理数据,以支持科研目的。 现阶段支持OCR功能, 支持使用的大模型有 qwen(通义千问), moonshot(月之暗面), PaddleOCR(百度飞桨OCR), openai, Llava。

启动

克隆并且进入仓库

git clone https://github.com/jackfsuia/LLM-Data-Cleaner.git && cd LLM-Data-Cleaner

进入仓库然后跑下面命令启动OCR

python start_ocr.py --model MODEL --key YOUR_API_KEY --img_path /path/to/images/ --outdir /path/to/output/ --lang language --batchsize batchsize

MODEL 的值可以是 "qwen"(通义千问), "moonshot"(月之暗面), "paddle"(百度飞桨OCR), "openai"llava. YOUR_API_KEY 是你申请的API KEY,没有的话点上面相应的模型字体链接申请, paddle, llava不需要。 /path/to/images/ 是图片目录, 里面所有图片都会被OCR, 结果保存在 /path/to/output/ data.jsonl。 language 是识别的语言,值可以是 ch (中文), en (英文), fr (法语), german (德语), korean (韩语), japan (日语), 只有百度飞桨OCR可能会用到。batchsize 是每批量的大小,也是线程数,计算资源运行情况下,越大越好,默认是数据集大小。

示例

假如你要用通义千问的qwen-vl-plus模型做OCR,API密钥是sbadgassjda,图片数据所在目录是/images/,结果输出data.jsonl文件目录是/images/,无论是识别什么语言,你都应该跑下面的代码

python start_ocr.py --model qwen-vl-plus --key sbadgassjda --img_path /images/ --outdir /images/

假如你要用百度飞桨OCR做OCR,图片数据所在目录是/images/,希望结果输出data.jsonl文件目录是/images/,语言是中文,那你应该跑下面的代码

python start_ocr.py --model paddle --img_path /images/ --outdir /images/ --lang ch

假如你要用 llava, 跑下面的代码

python start_ocr --model LLAVA_PATH --img_path /images/ --outdir /images/

`LLAVA_PATH`` is 你的llava模型路径(HuggingFace类的模型路径).

附录

OCR的提示词存在文件ocr.py里。

许可

项目许可证是LICENSE

About

用大模型批量处理数据,现支持各种大模型做OCR,支持通义千问, 月之暗面, 百度飞桨OCR, OpenAI 和LLAVA。Use LLM to generate or clean data for academic use. Support OCR with qwen, moonshot, PaddleOCR, OpenAI, Llava.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages