PDF文献抽结构数据,MinerU+RAG?
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
--【壹】--:
--【贰】--:
--【叁】--:
--【肆】--:
有什么具体好用的方法吗,目前想从几万篇文献(PDF)结构化抽取数据
网友解答:--【壹】--:
多申请一些账号跑,官网每个账号每天2000页免费额度,几万份跑两个星期就完了
--【贰】--:
感觉 MarkItDown 都够了,mineru 有点重?除非要提取版面特别复杂的 pdf,比如体检报告,竞品分析 ppt 之类
--【叁】--:
就是文章抽数据,要抽表格,图片里面信息
--【肆】--:
那可以试试 mineru,我是感觉有点慢,你几万篇文档估计要搞多几台服务器一起跑
问题描述:
--【壹】--:
--【贰】--:
--【叁】--:
--【肆】--:
有什么具体好用的方法吗,目前想从几万篇文献(PDF)结构化抽取数据
网友解答:--【壹】--:
多申请一些账号跑,官网每个账号每天2000页免费额度,几万份跑两个星期就完了
--【贰】--:
感觉 MarkItDown 都够了,mineru 有点重?除非要提取版面特别复杂的 pdf,比如体检报告,竞品分析 ppt 之类
--【叁】--:
就是文章抽数据,要抽表格,图片里面信息
--【肆】--:
那可以试试 mineru,我是感觉有点慢,你几万篇文档估计要搞多几台服务器一起跑

