[开源] 做了一个用LLM来OCR的工具,欢迎各位佬友使用!
- 内容介绍
- 文章标签
- 相关推荐
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
GitHub - RRRRUDDDD/LLM_OCR: 通过多模态大语言模型来进行OCR
通过多模态大语言模型来进行OCR
做这个项目的起因是我自己有 ocr 大量文本的需求,现在多模态大模型的 ocr 效果确实非常好,准确率高,速度也还行,但是市面上并没有很好的工具,于是就自己做了个,欢迎各位佬友使用并提出意见。佬友们觉得好用的话可以点个小星星嘛,这是我最大的动力!
可识别的图片格式基本覆盖了日常会使用到的格式,也对 pdf 直接上传做了适配,可以直接用 pdf 来上传。支持直接复制,markdown,txt,word 四种导出方式。
移动端和 pc 端也都做了适配,方便日常使用。
66948.png2560×1469 104 KB
66949.png2560×1469 267 KB
66950.png2538×1492 262 KB
66959.png2560×1469 298 KB
66945.jpg1080×2249 110 KB
66955.jpg1080×2249 178 KB
最后,感谢 L 站和 L 站的佬友们,没有站内的公益站,就没有这个项目。opus4.6 太牛了!开心 | 1024x1536,10%1024×1024 274 KB
--【壹】--:
我手上没有古籍的档案诶,佬友可以自己试试看,有问题的话可以直接说
--【贰】--:
感谢大佬了
--【叁】--:
感谢佬友分享。
--【肆】--:
我想做的比较纯粹哈哈哈,而且希望能多端使用,所以用 paddleOCR 就不太现实了,然后我导出本身就支持多格式,输出的时候也是带有 md 渲染的
--【伍】--:
感谢佬友分享
--【陆】--:
STranslate/STranslate 带这个功能,不过只支持Windows
--【柒】--:
这对古籍的识别率怎么样
--【捌】--:
正好也在做类似的免费项目,马上学习!
--【玖】--:
qwen 和 gpt 都还不错,gemini 一般般
--【拾】--:
好的 谢谢佬
--【拾壹】--:
image1083×692 65 KB
巧了,我也做了一个类似的,不过我增加了paddleOCR离线模型、多格式文档转换、截图识别、翻译、markdown渲染等功能。
--【拾贰】--:
好的 谢谢佬
--【拾叁】--:
我自己的程序测试,gemini-3-flash-preview、qwen3.5-122b-a10b、qwen3-vl-235b-a22b-instruct、qwen3-vl-30b-a3b-instruct、doubao-seed-2.0-pro这几个模型效果最好,gemini 3 pro反而没有flash效果好。千问qwen3.5-122b-a10b这个是真的顶。
--【拾肆】--:
感谢佬友分享
--【拾伍】--:
哪个模型效果好?
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
GitHub - RRRRUDDDD/LLM_OCR: 通过多模态大语言模型来进行OCR
通过多模态大语言模型来进行OCR
做这个项目的起因是我自己有 ocr 大量文本的需求,现在多模态大模型的 ocr 效果确实非常好,准确率高,速度也还行,但是市面上并没有很好的工具,于是就自己做了个,欢迎各位佬友使用并提出意见。佬友们觉得好用的话可以点个小星星嘛,这是我最大的动力!
可识别的图片格式基本覆盖了日常会使用到的格式,也对 pdf 直接上传做了适配,可以直接用 pdf 来上传。支持直接复制,markdown,txt,word 四种导出方式。
移动端和 pc 端也都做了适配,方便日常使用。
66948.png2560×1469 104 KB
66949.png2560×1469 267 KB
66950.png2538×1492 262 KB
66959.png2560×1469 298 KB
66945.jpg1080×2249 110 KB
66955.jpg1080×2249 178 KB
最后,感谢 L 站和 L 站的佬友们,没有站内的公益站,就没有这个项目。opus4.6 太牛了!开心 | 1024x1536,10%1024×1024 274 KB
--【壹】--:
我手上没有古籍的档案诶,佬友可以自己试试看,有问题的话可以直接说
--【贰】--:
感谢大佬了
--【叁】--:
感谢佬友分享。
--【肆】--:
我想做的比较纯粹哈哈哈,而且希望能多端使用,所以用 paddleOCR 就不太现实了,然后我导出本身就支持多格式,输出的时候也是带有 md 渲染的
--【伍】--:
感谢佬友分享
--【陆】--:
STranslate/STranslate 带这个功能,不过只支持Windows
--【柒】--:
这对古籍的识别率怎么样
--【捌】--:
正好也在做类似的免费项目,马上学习!
--【玖】--:
qwen 和 gpt 都还不错,gemini 一般般
--【拾】--:
好的 谢谢佬
--【拾壹】--:
image1083×692 65 KB
巧了,我也做了一个类似的,不过我增加了paddleOCR离线模型、多格式文档转换、截图识别、翻译、markdown渲染等功能。
--【拾贰】--:
好的 谢谢佬
--【拾叁】--:
我自己的程序测试,gemini-3-flash-preview、qwen3.5-122b-a10b、qwen3-vl-235b-a22b-instruct、qwen3-vl-30b-a3b-instruct、doubao-seed-2.0-pro这几个模型效果最好,gemini 3 pro反而没有flash效果好。千问qwen3.5-122b-a10b这个是真的顶。
--【拾肆】--:
感谢佬友分享
--【拾伍】--:
哪个模型效果好?

![[开源] 做了一个用LLM来OCR的工具,欢迎各位佬友使用!](/imgrand/Cr5nVztf.webp)