pdf 转 md 的最佳实践是什么
- 内容介绍
- 文章标签
- 相关推荐
最近想通过期刊论文构建本地知识库,需要把大量 pdf 转换为 markdown。试了很火的 MinerU,虽然它 OCR 能力很强,但是对于本身就是文本的 pdf 反而会出现更多的错别字。传统的 pypdf 和 pdfplumber 出来的东西又不是很有格式。佬友们有没有什么好的工具推荐呢?
网友解答:--【壹】--:
我都是直接丢给哈基米,不过图片什么的怎么弄,还没转过有图片的
--【贰】--:
其实平时是直接ai的。就是你把pdf给ai然后让他给你md
--【叁】--:
html 转为 markdown 不行吗。除了表格格式保留为标签形式
--【肆】--:
看了一下,模型最新的是 V3-2509,那有段时间没更新了
--【伍】--:
是的,也是用mineru识别的,然后调用了翻译接口进行的翻译
--【陆】--:
一股脑塞进notebooklm 让谷歌大模型去处理把 现在应该是免费独一档
--【柒】--:
谷歌notebooklm感觉确实不错,免费使劲噔
--【捌】--:
我在 Nature 系列的期刊上测试过,还是会有拼写错误,不如直接拉 html 方便。可能是因为 MinerU 是视觉模型,不会直接拉取 pdf 中的文字,所以总是有不确定性。
--【玖】--:
你用的什么模型呢,我用的是vlm,没有开OCR,这个精度我觉得非常不错了
左边是原文,右边是调用mineru识别以后进行的翻译
image1920×1107 629 KB
--【拾】--:
hhh感觉实在不行只能这样了,就是略费token
--【拾壹】--:
刚知道有MinerU这个东西,我在用Docling解析,不过我不是解析成MD,我是分块存到数据库的,代码调好解析的还是挺准的,也不用调API。
--【拾贰】--:
直接使用 LLM 效果怎么样啊,有点好奇
--【拾叁】--:
费啥啊,网页版的随便聊不花token的,随便聊的
--【拾肆】--:
mineru api挺好用的吧,感觉没什么错别字,速度也很快
--【拾伍】--:
这个是MinerU做的吗?我用的是精准解析 API
--【拾陆】--:
之前做科研用的doc2X,
Doc2X Enterprise - 智能文档解析API平台
Doc2X Enterprise提供专业的文档解析API服务,支持PDF转换、OCR识别、公式表格提取等企业级功能,助力企业数字化转型。
不过是去年用的了,不知道有啥更好的没有
--【拾柒】--:
MinerU我之前测试也是感觉不太行,试试Docling,或者最近国内几个公司出的Ocr的模型。
--【拾捌】--:
我感觉我转出来的md总有各种错词或者粘连问题,如图
image1920×1044 492 KB
确实不是不能用,但感觉还不如直接解析html来得方便
--【拾玖】--:
QQ_17755616328881988×1086 387 KB
挺奇怪的,我这调用api解析和网页解析都没有遇到你的这个问题,不过确实还是有一些错误,我觉得整体还可以接受
最近想通过期刊论文构建本地知识库,需要把大量 pdf 转换为 markdown。试了很火的 MinerU,虽然它 OCR 能力很强,但是对于本身就是文本的 pdf 反而会出现更多的错别字。传统的 pypdf 和 pdfplumber 出来的东西又不是很有格式。佬友们有没有什么好的工具推荐呢?
网友解答:--【壹】--:
我都是直接丢给哈基米,不过图片什么的怎么弄,还没转过有图片的
--【贰】--:
其实平时是直接ai的。就是你把pdf给ai然后让他给你md
--【叁】--:
html 转为 markdown 不行吗。除了表格格式保留为标签形式
--【肆】--:
看了一下,模型最新的是 V3-2509,那有段时间没更新了
--【伍】--:
是的,也是用mineru识别的,然后调用了翻译接口进行的翻译
--【陆】--:
一股脑塞进notebooklm 让谷歌大模型去处理把 现在应该是免费独一档
--【柒】--:
谷歌notebooklm感觉确实不错,免费使劲噔
--【捌】--:
我在 Nature 系列的期刊上测试过,还是会有拼写错误,不如直接拉 html 方便。可能是因为 MinerU 是视觉模型,不会直接拉取 pdf 中的文字,所以总是有不确定性。
--【玖】--:
你用的什么模型呢,我用的是vlm,没有开OCR,这个精度我觉得非常不错了
左边是原文,右边是调用mineru识别以后进行的翻译
image1920×1107 629 KB
--【拾】--:
hhh感觉实在不行只能这样了,就是略费token
--【拾壹】--:
刚知道有MinerU这个东西,我在用Docling解析,不过我不是解析成MD,我是分块存到数据库的,代码调好解析的还是挺准的,也不用调API。
--【拾贰】--:
直接使用 LLM 效果怎么样啊,有点好奇
--【拾叁】--:
费啥啊,网页版的随便聊不花token的,随便聊的
--【拾肆】--:
mineru api挺好用的吧,感觉没什么错别字,速度也很快
--【拾伍】--:
这个是MinerU做的吗?我用的是精准解析 API
--【拾陆】--:
之前做科研用的doc2X,
Doc2X Enterprise - 智能文档解析API平台
Doc2X Enterprise提供专业的文档解析API服务,支持PDF转换、OCR识别、公式表格提取等企业级功能,助力企业数字化转型。
不过是去年用的了,不知道有啥更好的没有
--【拾柒】--:
MinerU我之前测试也是感觉不太行,试试Docling,或者最近国内几个公司出的Ocr的模型。
--【拾捌】--:
我感觉我转出来的md总有各种错词或者粘连问题,如图
image1920×1044 492 KB
确实不是不能用,但感觉还不如直接解析html来得方便
--【拾玖】--:
QQ_17755616328881988×1086 387 KB
挺奇怪的,我这调用api解析和网页解析都没有遇到你的这个问题,不过确实还是有一些错误,我觉得整体还可以接受

