[开源] 做了一个用LLM来OCR的工具，欢迎各位佬友使用！

2026-04-11 12:191阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

问题描述：

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出

github.com

GitHub - RRRRUDDDD/LLM_OCR: 通过多模态大语言模型来进行OCR

通过多模态大语言模型来进行OCR

做这个项目的起因是我自己有 ocr 大量文本的需求，现在多模态大模型的 ocr 效果确实非常好，准确率高，速度也还行，但是市面上并没有很好的工具，于是就自己做了个，欢迎各位佬友使用并提出意见。佬友们觉得好用的话可以点个小星星嘛，这是我最大的动力！

可识别的图片格式基本覆盖了日常会使用到的格式，也对 pdf 直接上传做了适配，可以直接用 pdf 来上传。支持直接复制，markdown，txt，word 四种导出方式。

移动端和 pc 端也都做了适配，方便日常使用。

66948.png2560×1469 104 KB
66949.png2560×1469 267 KB
66950.png2538×1492 262 KB
66959.png2560×1469 298 KB
66945.jpg1080×2249 110 KB
66955.jpg1080×2249 178 KB

最后，感谢 L 站和 L 站的佬友们，没有站内的公益站，就没有这个项目。~~opus4.6 太牛了！~~开心 | 1024x1536,10%1024×1024 274 KB

网友解答：

--【壹】--：

我手上没有古籍的档案诶，佬友可以自己试试看，有问题的话可以直接说

--【贰】--：

感谢大佬了

--【叁】--：

感谢佬友分享。

--【肆】--：

我想做的比较纯粹哈哈哈，而且希望能多端使用，所以用 paddleOCR 就不太现实了，然后我导出本身就支持多格式，输出的时候也是带有 md 渲染的

--【伍】--：

感谢佬友分享

--【陆】--：

STranslate/STranslate 带这个功能，不过只支持Windows

--【柒】--：

这对古籍的识别率怎么样

--【捌】--：

正好也在做类似的免费项目，马上学习！

--【玖】--：

qwen 和 gpt 都还不错，gemini 一般般

--【拾】--：

好的谢谢佬

--【拾壹】--：

image1083×692 65 KB
巧了，我也做了一个类似的，不过我增加了paddleOCR离线模型、多格式文档转换、截图识别、翻译、markdown渲染等功能。

--【拾贰】--：

好的谢谢佬

--【拾叁】--：

我自己的程序测试，gemini-3-flash-preview、qwen3.5-122b-a10b、qwen3-vl-235b-a22b-instruct、qwen3-vl-30b-a3b-instruct、doubao-seed-2.0-pro这几个模型效果最好，gemini 3 pro反而没有flash效果好。千问qwen3.5-122b-a10b这个是真的顶。

--【拾肆】--：

感谢佬友分享

--【拾伍】--：

哪个模型效果好？

标签：人工智能软件开发开源推广

问题描述：

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出

github.com

GitHub - RRRRUDDDD/LLM_OCR: 通过多模态大语言模型来进行OCR

通过多模态大语言模型来进行OCR

移动端和 pc 端也都做了适配，方便日常使用。

66948.png2560×1469 104 KB
66949.png2560×1469 267 KB
66950.png2538×1492 262 KB
66959.png2560×1469 298 KB
66945.jpg1080×2249 110 KB
66955.jpg1080×2249 178 KB

最后，感谢 L 站和 L 站的佬友们，没有站内的公益站，就没有这个项目。~~opus4.6 太牛了！~~开心 | 1024x1536,10%1024×1024 274 KB

网友解答：

--【壹】--：

我手上没有古籍的档案诶，佬友可以自己试试看，有问题的话可以直接说

--【贰】--：

感谢大佬了

--【叁】--：

感谢佬友分享。

--【肆】--：

我想做的比较纯粹哈哈哈，而且希望能多端使用，所以用 paddleOCR 就不太现实了，然后我导出本身就支持多格式，输出的时候也是带有 md 渲染的

--【伍】--：

感谢佬友分享

--【陆】--：

STranslate/STranslate 带这个功能，不过只支持Windows

--【柒】--：

这对古籍的识别率怎么样

--【捌】--：

正好也在做类似的免费项目，马上学习！

--【玖】--：

qwen 和 gpt 都还不错，gemini 一般般

--【拾】--：

好的谢谢佬

--【拾壹】--：

image1083×692 65 KB
巧了，我也做了一个类似的，不过我增加了paddleOCR离线模型、多格式文档转换、截图识别、翻译、markdown渲染等功能。

--【拾贰】--：

好的谢谢佬

--【拾叁】--：

--【拾肆】--：

感谢佬友分享

--【拾伍】--：

哪个模型效果好？

标签：人工智能软件开发开源推广

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

GitHub - RRRRUDDDD/LLM_OCR: 通过多模态大语言模型来进行OCR

相关推荐

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

GitHub - RRRRUDDDD/LLM_OCR: 通过多模态大语言模型来进行OCR

相关推荐