NDL古典籍OCRアプリケーションを利用して取得するOCR結果を手動で校正するツールです。
https://bakuhu-shokusei.github.io/proofreading/
-a
オプションを指定してOCRアプリを実行してください。
例
python main.py infer input_root output_dir -a
input_dir
├── book1
│ ├── img
│ │ ├── 001.jpg
│ │ └── 002.jpg
│ ├── txt
│ │ ├── 001.txt
│ │ └── 002.txt
│ └── json
│ ├── 001.json
│ └── 002.json
└── book2
├── img
│ ├── 001.jpg
│ ├── 002.jpg
│ └── 003.jpg
└── txt
├── 001.txt
├── 002.txt
└── 003.txt
ここで先ほどのフォルダを選択し、校正作業に入ります。
スクショのように、構成画面は
- 左の部分(A)
- 右上の部分(B)
- 右下の部分(C)
三つの部分で構成されています。
流れとしては、
- Aと照合してBを編集する(以下の操作ができます)
- 内容の編集
- 順番の調整(ドラッグ&ドロップ)
- 長方形自体を削除
- 「確定」ボタンを押して、Bの内容をCに移す
- Cで更に編集する