PDF文献抽结构数据,MinerU+RAG?

2026-04-11 11:250阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

有什么具体好用的方法吗,目前想从几万篇文献(PDF)结构化抽取数据

网友解答:
--【壹】--:

多申请一些账号跑,官网每个账号每天2000页免费额度,几万份跑两个星期就完了


--【贰】--:

感觉 MarkItDown 都够了,mineru 有点重?除非要提取版面特别复杂的 pdf,比如体检报告,竞品分析 ppt 之类


--【叁】--:

就是文章抽数据,要抽表格,图片里面信息


--【肆】--:

那可以试试 mineru,我是感觉有点慢,你几万篇文档估计要搞多几台服务器一起跑

问题描述:

有什么具体好用的方法吗,目前想从几万篇文献(PDF)结构化抽取数据

网友解答:
--【壹】--:

多申请一些账号跑,官网每个账号每天2000页免费额度,几万份跑两个星期就完了


--【贰】--:

感觉 MarkItDown 都够了,mineru 有点重?除非要提取版面特别复杂的 pdf,比如体检报告,竞品分析 ppt 之类


--【叁】--:

就是文章抽数据,要抽表格,图片里面信息


--【肆】--:

那可以试试 mineru,我是感觉有点慢,你几万篇文档估计要搞多几台服务器一起跑