PDF 转文本,各位佬们有什么好的方案吗

2026-04-13 13:161阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

医疗软件公司,现需要解析医疗文献。医疗文献的 PDF 一般是双栏布局,目前没有好的转换方案,求助各位大佬。
要识别的 PDF 较多,估计得上千份左右

网友解答:
--【壹】--:

非常感谢各位佬们的热心解答,目前整体用下来感觉 https://aistudio.baidu.com/paddleocr
还不错,当然还有佬们提供的MinerU也行。

非常感谢各位的热心解答,非常感谢,这里就不一一回复了


--【贰】--:

可以试试MinerU
把pdf转换成md
然后提取文字

之前试过,还行

MinerU

MinerU | 一站式 PDF 文档解析工具

从 PDF 中提取表格、公式、文字与图片,精准转换为 Markdown、JSON 等多种格式

github.com

GitHub - opendatalab/MinerU: Transforms complex documents like PDFs into...

Transforms complex documents like PDFs into LLM-ready markdown/JSON for your Agentic workflows.


--【叁】--: 记一次使用agent在一小时内完整调研上百篇文献的工作流 开发调优
用 AI 处理三十卷期刊文献综述的工程实践 老板节前扔过来三十卷期刊,时间跨度从 1990 年到现在,每卷约十几篇文献,节后要汇报某一特定主题在这几十年间的发展脉络。面对这种人力难以企及的工作量,只能借助 AI 辅助筛选和梳理。但真正动手之前,有两个硬问题必须先解决。 两个核心难点 上下文长度 一次性把所有文献塞进去显然行不通。单纯依靠上下文工程(比如在 system prompt 里约束每轮…

根据这个佬友说的, MinerU看来是一个不错的选择


--【肆】--:

可以的佬,这个我试着不错,非常感谢呀!!


--【伍】--:

愿意花钱可以试试mineru api 或者自建


--【陆】--:

直接用MinerU API,这个量级轻松搞掂,不想花钱就搞多几个免费账号。
我愁的是 我有几万本专业的 pdf 书籍,一直没有找到合适的低成本OCR方案。


--【柒】--:

百度的paddleocr这方面应该是国内最好的


--【捌】--: 人生一码:

paddleocr

试试百度的paddleocr
也有专门的mcp服务,每天免费20000次的额度调用


--【玖】--:
github.com

GitHub - microsoft/markitdown: Python tool for converting files and office...

Python tool for converting files and office documents to Markdown.


--【拾】--:

试试 mineru 他们有api 每天可以白嫖不少,着急多注册俩号就行,之前搞论文效果不错。


--【拾壹】--:

而且我记得docmind好像每月还有免费额度,解析出的是一个大型的json,提取一下就可以了


--【拾贰】--:

可以试试 Doc2X. 自己用下来还是不错的. 双栏也可以识别。


--【拾叁】--:

要AI写个skill 或者工具转,应该可以吧


--【拾肆】--:

刚好看到这个

【paddleocr PP-StructureV3 pdf转md 懒人整合包 gpu可用-哔哩哔哩】 https://b23.tv/fj16bpK


--【拾伍】--:

MinerU?
要识别的 PDF 较多,估计得上千份左右


--【拾陆】--:

MinerU确实效果不错,不过比较重,如果是自己使用感觉还行,当时我们想要制作为服务,后续发现这个功能模块比我们整个后端业务都重


--【拾柒】--:

我的第一想法就是识别这个文本布局是不是双栏的,是双栏的直接中间切分从左到右进行读取文本,不管是OCR还是直接读取文本都是可以的


--【拾捌】--:

我是让claude自己去研究这个事,一般就是一些python包吧,让他自己去办。我记得rust也有包,但效果可能不如python的。


--【拾玖】--:

可以试试阿里的docmind(文档智能)服务,这个算是国内解析效果最好的了,我们之前有业务就是提取PDF论文作为向量知识库,有用过开源工具,但是这个算是CPU密集型任务,需要的资源很多,但是这些对于本来就有模型训练需求的厂家算是顺手的事