-
Notifications
You must be signed in to change notification settings - Fork 2.9k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
【测试】Umi-OCR 支持数学公式识别啦 #254
Comments
非常感谢,这个精度算是可以用了 |
增加数学公式的支持太需要了,可惜p2t识别公式精度有点低,不知道是不是跟个人电脑配置有关?有个叫simpletex的公式混合效果特别好,是否可以参考下。另外nougat的公式识别精度很高,这个应该是开源的,遗憾的是好像不支持中文。 |
@oyyuyu 感谢建议。 p2t有闭源收费的模型,据说效果更好。 simpletex 我了解过,闭源,只支持在线。个人用它家软件是免费的,可惜API只有1000次免费调用额度。 nougat 有点意思,不过似乎只支持PDF,不知道有没有图像的接口。以后有空看看。 |
这个识别非常好,但是改版2.0后,觉得界面太复杂了,而且占面积过大,希望能回复以前的极简页面;还有非常期待数学公式的识别,表格的识别。数学公式识别建议接入微软的识别接口。非常感谢原作的辛苦付出! |
nougat应该有图像接口,网络上见过把nougat做成本地截图版本的实例,另外GitHub里有个[RapidLatexOCR]公式识别好像也还行(试了下demo网站),不知是不是可以做个参考? |
厉害,马克一下 |
只有一个选项 |
你应该是导入的步骤不正确。请确保解压后放置的文件结构如下:
你可能解压后创建了两层
|
感谢作者对 Pix2Text 的适配,辛苦👍 |
@breezedeus 哈哈,也希望大佬开源更多的高精度库啦~ |
@oyyuyu @breezedeus 可关注下Vary,效果展示和原理介绍,功能参考nougat,支持中英文 有demo。我是作者之一,欢迎反馈 |
测试了一下demo,很强啊,感谢大佬。 |
👍 应该是这个方向最大的模型了。求个下载链接: breezedeus AT gmail DOT com 🙏 |
VikParuchuri/texify: OCR model for math that outputs LaTeX and markdown Benchmarks provided by @VikParuchuri: |
辛苦开发者开发这个插件了,实在是好用。 |
看了看更新日志,精度提升幅度确实很诱人!我会尽快着手对V1.0的适配。 |
@hiroi-sora 辛苦辛苦,非常感谢🙏 |
感谢开发者的回应和热情适配,我这还有一个不情之请:希望该插件有个类似于 SimpleTex 的实时预览功能,因为每次识别之后都无法第一时间检验 OCR 的正确性。即:#323 |
Umi-OCR Pix2Text 插件已同步更新到原项目的
|
赞效率 👍 |
你图中是软件将公式当成普通文本来识别了。建议使用纯数学公式模式,即只勾选 |
预览截图:
预览输出:
gradients in at least two (significantly) different orientations are the easiest to localiz, as shown schematically in Figure 7.4a.
These intuitions can be formalized by looking at the simplest possible matching criterion for comparing two image patches, i., their (weighted) summed square difference,
where$I_{0}$ and $I_{1}$ are the two images being compared, ${\mathbf u}=( u, v )$ is the displacement vector, $w ( {\bf x} )$ is a spatially varying weighting (or window) function, and the summation i is over all the pixels in the patch. Note that this is the same formulation we later use to estimate motion between complete images (Section 9.1).
When performing feature detection, we do not know which other image locations the feature will end up being matched against. Therefore, we can only compute how stable this
前言
Pix2Text 是一个开源OCR项目,能够识别既包含文字又包含数学公式的混合图片。
我将其封装为插件,可导入 Umi-OCR v2 任意版本使用。支持 win7 x64 及以上的系统。
Pix2Text插件的用法与Paddle、Rapid插件相同,支持截图OCR和批量OCR。你可以同时导入这些插件,但不能同时启用。你需要在软件中切换它们。
P2T插件 当前为测试阶段,可能不稳定或有bug。遇到任何相关问题,可以在本贴反馈。
请注意:下载插件后,第一次执行OCR时,P2T插件需要大量时间(10~60s)进行初始化、构建缓存,请耐心等待。后续OCR速度将恢复正常。
P2T是离线的,无需网络即可使用。
如何导入插件
UmiOCR-data/plugins
Pix2Text
→点击应用修改务必点击 应用修改 !
P2T的特色
与 Paddle、Rapid相比,P2T插件有以下优点:
P2T插件也存在这些不足:
The text was updated successfully, but these errors were encountered: