pdf 转 md 的最佳实践是什么

2026-04-11 10:570阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

最近想通过期刊论文构建本地知识库,需要把大量 pdf 转换为 markdown。试了很火的 MinerU,虽然它 OCR 能力很强,但是对于本身就是文本的 pdf 反而会出现更多的错别字。传统的 pypdf 和 pdfplumber 出来的东西又不是很有格式。佬友们有没有什么好的工具推荐呢?

网友解答:
--【壹】--:

我都是直接丢给哈基米,不过图片什么的怎么弄,还没转过有图片的


--【贰】--:

其实平时是直接ai的。就是你把pdf给ai然后让他给你md


--【叁】--:

html 转为 markdown 不行吗。除了表格格式保留为标签形式


--【肆】--:

看了一下,模型最新的是 V3-2509,那有段时间没更新了


--【伍】--:

是的,也是用mineru识别的,然后调用了翻译接口进行的翻译


--【陆】--:

一股脑塞进notebooklm 让谷歌大模型去处理把 现在应该是免费独一档


--【柒】--:

谷歌notebooklm感觉确实不错,免费使劲噔


--【捌】--:

我在 Nature 系列的期刊上测试过,还是会有拼写错误,不如直接拉 html 方便。可能是因为 MinerU 是视觉模型,不会直接拉取 pdf 中的文字,所以总是有不确定性。

阅读全文
标签:快问快答
问题描述:

最近想通过期刊论文构建本地知识库,需要把大量 pdf 转换为 markdown。试了很火的 MinerU,虽然它 OCR 能力很强,但是对于本身就是文本的 pdf 反而会出现更多的错别字。传统的 pypdf 和 pdfplumber 出来的东西又不是很有格式。佬友们有没有什么好的工具推荐呢?

网友解答:
--【壹】--:

我都是直接丢给哈基米,不过图片什么的怎么弄,还没转过有图片的


--【贰】--:

其实平时是直接ai的。就是你把pdf给ai然后让他给你md


--【叁】--:

html 转为 markdown 不行吗。除了表格格式保留为标签形式


--【肆】--:

看了一下,模型最新的是 V3-2509,那有段时间没更新了


--【伍】--:

是的,也是用mineru识别的,然后调用了翻译接口进行的翻译


--【陆】--:

一股脑塞进notebooklm 让谷歌大模型去处理把 现在应该是免费独一档


--【柒】--:

谷歌notebooklm感觉确实不错,免费使劲噔


--【捌】--:

我在 Nature 系列的期刊上测试过,还是会有拼写错误,不如直接拉 html 方便。可能是因为 MinerU 是视觉模型,不会直接拉取 pdf 中的文字,所以总是有不确定性。

阅读全文
标签:快问快答