PDF 转文本，各位佬们有什么好的方案吗

2026-04-13 13:161阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

医疗软件公司，现需要解析医疗文献。医疗文献的 PDF 一般是双栏布局，目前没有好的转换方案，求助各位大佬。
要识别的 PDF 较多，估计得上千份左右

网友解答：

--【壹】--：

非常感谢各位佬们的热心解答，目前整体用下来感觉 https://aistudio.baidu.com/paddleocr
还不错，当然还有佬们提供的MinerU也行。

非常感谢各位的热心解答，非常感谢，这里就不一一回复了

--【贰】--：

可以试试MinerU
把pdf转换成md
然后提取文字

之前试过，还行

MinerU

MinerU | 一站式 PDF 文档解析工具

从 PDF 中提取表格、公式、文字与图片，精准转换为 Markdown、JSON 等多种格式

github.com

GitHub - opendatalab/MinerU: Transforms complex documents like PDFs into...

Transforms complex documents like PDFs into LLM-ready markdown/JSON for your Agentic workflows.

--【叁】--： 记一次使用agent在一小时内完整调研上百篇文献的工作流开发调优

用 AI 处理三十卷期刊文献综述的工程实践老板节前扔过来三十卷期刊，时间跨度从 1990 年到现在，每卷约十几篇文献，节后要汇报某一特定主题在这几十年间的发展脉络。面对这种人力难以企及的工作量，只能借助 AI 辅助筛选和梳理。但真正动手之前，有两个硬问题必须先解决。两个核心难点上下文长度一次性把所有文献塞进去显然行不通。单纯依靠上下文工程（比如在 system prompt 里约束每轮…

根据这个佬友说的， MinerU看来是一个不错的选择

--【肆】--：

可以的佬，这个我试着不错，非常感谢呀！！

--【伍】--：

愿意花钱可以试试mineru api 或者自建

--【陆】--：

直接用MinerU API，这个量级轻松搞掂，不想花钱就搞多几个免费账号。
我愁的是我有几万本专业的 pdf 书籍，一直没有找到合适的低成本OCR方案。

--【柒】--：

百度的paddleocr这方面应该是国内最好的

--【捌】--： 人生一码:

paddleocr

试试百度的paddleocr
也有专门的mcp服务，每天免费20000次的额度调用

--【玖】--：

github.com

GitHub - microsoft/markitdown: Python tool for converting files and office...

Python tool for converting files and office documents to Markdown.

--【拾】--：

试试 mineru 他们有api 每天可以白嫖不少，着急多注册俩号就行，之前搞论文效果不错。

--【拾壹】--：

而且我记得docmind好像每月还有免费额度，解析出的是一个大型的json，提取一下就可以了

--【拾贰】--：

可以试试 Doc2X. 自己用下来还是不错的. 双栏也可以识别。

--【拾叁】--：

要AI写个skill 或者工具转，应该可以吧

--【拾肆】--：

刚好看到这个

【paddleocr PP-StructureV3 pdf转md 懒人整合包 gpu可用-哔哩哔哩】 https://b23.tv/fj16bpK

--【拾伍】--：

MinerU?
要识别的 PDF 较多，估计得上千份左右

--【拾陆】--：

MinerU确实效果不错，不过比较重，如果是自己使用感觉还行，当时我们想要制作为服务，后续发现这个功能模块比我们整个后端业务都重

--【拾柒】--：

我的第一想法就是识别这个文本布局是不是双栏的，是双栏的直接中间切分从左到右进行读取文本，不管是OCR还是直接读取文本都是可以的

--【拾捌】--：

我是让claude自己去研究这个事，一般就是一些python包吧，让他自己去办。我记得rust也有包，但效果可能不如python的。

--【拾玖】--：

可以试试阿里的docmind（文档智能）服务，这个算是国内解析效果最好的了，我们之前有业务就是提取PDF论文作为向量知识库，有用过开源工具，但是这个算是CPU密集型任务，需要的资源很多，但是这些对于本来就有模型训练需求的厂家算是顺手的事

标签：快问快答

问题描述：

网友解答：

--【壹】--：

非常感谢各位佬们的热心解答，目前整体用下来感觉 https://aistudio.baidu.com/paddleocr
还不错，当然还有佬们提供的MinerU也行。

非常感谢各位的热心解答，非常感谢，这里就不一一回复了

--【贰】--：

可以试试MinerU
把pdf转换成md
然后提取文字

之前试过，还行

MinerU

MinerU | 一站式 PDF 文档解析工具

从 PDF 中提取表格、公式、文字与图片，精准转换为 Markdown、JSON 等多种格式

github.com

GitHub - opendatalab/MinerU: Transforms complex documents like PDFs into...

Transforms complex documents like PDFs into LLM-ready markdown/JSON for your Agentic workflows.

--【叁】--： 记一次使用agent在一小时内完整调研上百篇文献的工作流开发调优

用 AI 处理三十卷期刊文献综述的工程实践老板节前扔过来三十卷期刊，时间跨度从 1990 年到现在，每卷约十几篇文献，节后要汇报某一特定主题在这几十年间的发展脉络。面对这种人力难以企及的工作量，只能借助 AI 辅助筛选和梳理。但真正动手之前，有两个硬问题必须先解决。两个核心难点上下文长度一次性把所有文献塞进去显然行不通。单纯依靠上下文工程（比如在 system prompt 里约束每轮…

根据这个佬友说的， MinerU看来是一个不错的选择

--【肆】--：

可以的佬，这个我试着不错，非常感谢呀！！

--【伍】--：

愿意花钱可以试试mineru api 或者自建

--【陆】--：

直接用MinerU API，这个量级轻松搞掂，不想花钱就搞多几个免费账号。
我愁的是我有几万本专业的 pdf 书籍，一直没有找到合适的低成本OCR方案。

--【柒】--：

百度的paddleocr这方面应该是国内最好的

--【捌】--： 人生一码:

paddleocr

试试百度的paddleocr
也有专门的mcp服务，每天免费20000次的额度调用

--【玖】--：

github.com

GitHub - microsoft/markitdown: Python tool for converting files and office...

Python tool for converting files and office documents to Markdown.

--【拾】--：

试试 mineru 他们有api 每天可以白嫖不少，着急多注册俩号就行，之前搞论文效果不错。

--【拾壹】--：

而且我记得docmind好像每月还有免费额度，解析出的是一个大型的json，提取一下就可以了

--【拾贰】--：

可以试试 Doc2X. 自己用下来还是不错的. 双栏也可以识别。

--【拾叁】--：

要AI写个skill 或者工具转，应该可以吧

--【拾肆】--：

刚好看到这个

【paddleocr PP-StructureV3 pdf转md 懒人整合包 gpu可用-哔哩哔哩】 https://b23.tv/fj16bpK

--【拾伍】--：

MinerU?
要识别的 PDF 较多，估计得上千份左右

--【拾陆】--：

MinerU确实效果不错，不过比较重，如果是自己使用感觉还行，当时我们想要制作为服务，后续发现这个功能模块比我们整个后端业务都重

--【拾柒】--：

我的第一想法就是识别这个文本布局是不是双栏的，是双栏的直接中间切分从左到右进行读取文本，不管是OCR还是直接读取文本都是可以的

--【拾捌】--：

我是让claude自己去研究这个事，一般就是一些python包吧，让他自己去办。我记得rust也有包，但效果可能不如python的。

--【拾玖】--：

标签：快问快答

MinerU | 一站式 PDF 文档解析工具

GitHub - opendatalab/MinerU: Transforms complex documents like PDFs into...

GitHub - microsoft/markitdown: Python tool for converting files and office...

相关推荐

MinerU | 一站式 PDF 文档解析工具

GitHub - opendatalab/MinerU: Transforms complex documents like PDFs into...

GitHub - microsoft/markitdown: Python tool for converting files and office...

相关推荐