论文数据难题,这pdf是ocr的根本转不了excel

2026-04-11 14:571阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

佬们,最近有在写一个论文是关于中国畜牧兽医年鉴的,好不容易在闲鱼拿到了历年的pdf数据,还要把统计数据转换成excel,但这格式的根本转不了,我试过excel转试过pandas的pdf转,这我真没招了
image1920×2560 1.45 MB

网友解答:
--【壹】--:

我try一下


--【贰】--:

去查查IBM 内部就这样用的,什么资料全丢进去说白了存万物
image1292×690 121 KB


--【叁】--:

我研究研究吧


--【肆】--:
  1. 导出表格所在页(用print功能
  2. 随便找个sota的大模型让它把pdf转markdown保留格式
  3. 随便找个大模型让它把markdown的表格转excel

--【伍】--:

我试试吧


--【陆】--:

整个文件没办法,截图让他生成就好,减少了一些劳动力感谢佬


--【柒】--:

感谢佬,好用麻了我靠,所有人都去用奥


--【捌】--:

或者还有 ocr.z.ai


--【玖】--:

学会用非结构化数据库这是我在 IBM 学到的技巧


--【拾】--:

+1 +1


--【拾壹】--:

mineru 你值得拥有


--【拾贰】--:

+1,确实好用


--【拾叁】--:

MinerU 或者 paddleocr


--【拾肆】--:

对的最近各厂都有ocr模型可以试试


--【拾伍】--:

丢给ChatGPT或Gemini让它识别创建Excel文件。如果很多内容需要识别,可以使用GPT5.4 Pro,写一个好提示词让它识别后自主校对,应该可以完成任务


--【拾陆】--:

有文档提取的模型 MinerU
还有客户端。也可以自己部署

mineru.net

MinerU 客户端下载 | 免费 PDF 桌面工具

下载 MinerU 桌面客户端,支持 Windows、macOS、Linux。离线批量处理,保护隐私,更快速度。


--【拾柒】--:

最好用ChatGPT官网,它系统自带各种工具。


--【拾捌】--:

佬咱之间有信息差,我没太懂