PDF 转文本,各位佬们有什么好的方案吗
- 内容介绍
- 文章标签
- 相关推荐
医疗软件公司,现需要解析医疗文献。医疗文献的 PDF 一般是双栏布局,目前没有好的转换方案,求助各位大佬。
要识别的 PDF 较多,估计得上千份左右
--【壹】--:
非常感谢各位佬们的热心解答,目前整体用下来感觉 https://aistudio.baidu.com/paddleocr
还不错,当然还有佬们提供的MinerU也行。
非常感谢各位的热心解答,非常感谢,这里就不一一回复了
--【贰】--:
可以试试MinerU
把pdf转换成md
然后提取文字
之前试过,还行
MinerU | 一站式 PDF 文档解析工具
从 PDF 中提取表格、公式、文字与图片,精准转换为 Markdown、JSON 等多种格式
GitHub - opendatalab/MinerU: Transforms complex documents like PDFs into...
Transforms complex documents like PDFs into LLM-ready markdown/JSON for your Agentic workflows.
--【叁】--: 记一次使用agent在一小时内完整调研上百篇文献的工作流 开发调优
用 AI 处理三十卷期刊文献综述的工程实践 老板节前扔过来三十卷期刊,时间跨度从 1990 年到现在,每卷约十几篇文献,节后要汇报某一特定主题在这几十年间的发展脉络。面对这种人力难以企及的工作量,只能借助 AI 辅助筛选和梳理。但真正动手之前,有两个硬问题必须先解决。 两个核心难点 上下文长度 一次性把所有文献塞进去显然行不通。单纯依靠上下文工程(比如在 system prompt 里约束每轮…
根据这个佬友说的, MinerU看来是一个不错的选择
--【肆】--:
可以的佬,这个我试着不错,非常感谢呀!!
--【伍】--:
愿意花钱可以试试mineru api 或者自建
--【陆】--:
直接用MinerU API,这个量级轻松搞掂,不想花钱就搞多几个免费账号。
我愁的是 我有几万本专业的 pdf 书籍,一直没有找到合适的低成本OCR方案。
--【柒】--:
百度的paddleocr这方面应该是国内最好的
--【捌】--: 人生一码:
paddleocr
试试百度的paddleocr
也有专门的mcp服务,每天免费20000次的额度调用
--【玖】--:
GitHub - microsoft/markitdown: Python tool for converting files and office...
Python tool for converting files and office documents to Markdown.
--【拾】--:
试试 mineru 他们有api 每天可以白嫖不少,着急多注册俩号就行,之前搞论文效果不错。
--【拾壹】--:
而且我记得docmind好像每月还有免费额度,解析出的是一个大型的json,提取一下就可以了
--【拾贰】--:
可以试试 Doc2X. 自己用下来还是不错的. 双栏也可以识别。
--【拾叁】--:
要AI写个skill 或者工具转,应该可以吧
--【拾肆】--:
刚好看到这个
【paddleocr PP-StructureV3 pdf转md 懒人整合包 gpu可用-哔哩哔哩】 https://b23.tv/fj16bpK
--【拾伍】--:
MinerU?
要识别的 PDF 较多,估计得上千份左右
--【拾陆】--:
MinerU确实效果不错,不过比较重,如果是自己使用感觉还行,当时我们想要制作为服务,后续发现这个功能模块比我们整个后端业务都重
--【拾柒】--:
我的第一想法就是识别这个文本布局是不是双栏的,是双栏的直接中间切分从左到右进行读取文本,不管是OCR还是直接读取文本都是可以的
--【拾捌】--:
我是让claude自己去研究这个事,一般就是一些python包吧,让他自己去办。我记得rust也有包,但效果可能不如python的。
--【拾玖】--:
可以试试阿里的docmind(文档智能)服务,这个算是国内解析效果最好的了,我们之前有业务就是提取PDF论文作为向量知识库,有用过开源工具,但是这个算是CPU密集型任务,需要的资源很多,但是这些对于本来就有模型训练需求的厂家算是顺手的事
医疗软件公司,现需要解析医疗文献。医疗文献的 PDF 一般是双栏布局,目前没有好的转换方案,求助各位大佬。
要识别的 PDF 较多,估计得上千份左右
--【壹】--:
非常感谢各位佬们的热心解答,目前整体用下来感觉 https://aistudio.baidu.com/paddleocr
还不错,当然还有佬们提供的MinerU也行。
非常感谢各位的热心解答,非常感谢,这里就不一一回复了
--【贰】--:
可以试试MinerU
把pdf转换成md
然后提取文字
之前试过,还行
MinerU | 一站式 PDF 文档解析工具
从 PDF 中提取表格、公式、文字与图片,精准转换为 Markdown、JSON 等多种格式
GitHub - opendatalab/MinerU: Transforms complex documents like PDFs into...
Transforms complex documents like PDFs into LLM-ready markdown/JSON for your Agentic workflows.
--【叁】--: 记一次使用agent在一小时内完整调研上百篇文献的工作流 开发调优
用 AI 处理三十卷期刊文献综述的工程实践 老板节前扔过来三十卷期刊,时间跨度从 1990 年到现在,每卷约十几篇文献,节后要汇报某一特定主题在这几十年间的发展脉络。面对这种人力难以企及的工作量,只能借助 AI 辅助筛选和梳理。但真正动手之前,有两个硬问题必须先解决。 两个核心难点 上下文长度 一次性把所有文献塞进去显然行不通。单纯依靠上下文工程(比如在 system prompt 里约束每轮…
根据这个佬友说的, MinerU看来是一个不错的选择
--【肆】--:
可以的佬,这个我试着不错,非常感谢呀!!
--【伍】--:
愿意花钱可以试试mineru api 或者自建
--【陆】--:
直接用MinerU API,这个量级轻松搞掂,不想花钱就搞多几个免费账号。
我愁的是 我有几万本专业的 pdf 书籍,一直没有找到合适的低成本OCR方案。
--【柒】--:
百度的paddleocr这方面应该是国内最好的
--【捌】--: 人生一码:
paddleocr
试试百度的paddleocr
也有专门的mcp服务,每天免费20000次的额度调用
--【玖】--:
GitHub - microsoft/markitdown: Python tool for converting files and office...
Python tool for converting files and office documents to Markdown.
--【拾】--:
试试 mineru 他们有api 每天可以白嫖不少,着急多注册俩号就行,之前搞论文效果不错。
--【拾壹】--:
而且我记得docmind好像每月还有免费额度,解析出的是一个大型的json,提取一下就可以了
--【拾贰】--:
可以试试 Doc2X. 自己用下来还是不错的. 双栏也可以识别。
--【拾叁】--:
要AI写个skill 或者工具转,应该可以吧
--【拾肆】--:
刚好看到这个
【paddleocr PP-StructureV3 pdf转md 懒人整合包 gpu可用-哔哩哔哩】 https://b23.tv/fj16bpK
--【拾伍】--:
MinerU?
要识别的 PDF 较多,估计得上千份左右
--【拾陆】--:
MinerU确实效果不错,不过比较重,如果是自己使用感觉还行,当时我们想要制作为服务,后续发现这个功能模块比我们整个后端业务都重
--【拾柒】--:
我的第一想法就是识别这个文本布局是不是双栏的,是双栏的直接中间切分从左到右进行读取文本,不管是OCR还是直接读取文本都是可以的
--【拾捌】--:
我是让claude自己去研究这个事,一般就是一些python包吧,让他自己去办。我记得rust也有包,但效果可能不如python的。
--【拾玖】--:
可以试试阿里的docmind(文档智能)服务,这个算是国内解析效果最好的了,我们之前有业务就是提取PDF论文作为向量知识库,有用过开源工具,但是这个算是CPU密集型任务,需要的资源很多,但是这些对于本来就有模型训练需求的厂家算是顺手的事

