论文数据难题,这pdf是ocr的根本转不了excel

2026-04-11 14:570阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

佬们,最近有在写一个论文是关于中国畜牧兽医年鉴的,好不容易在闲鱼拿到了历年的pdf数据,还要把统计数据转换成excel,但这格式的根本转不了,我试过excel转试过pandas的pdf转,这我真没招了
image1920×2560 1.45 MB

网友解答:
--【壹】--:

我try一下


--【贰】--:

去查查IBM 内部就这样用的,什么资料全丢进去说白了存万物
image1292×690 121 KB


--【叁】--:

我研究研究吧


--【肆】--:
  1. 导出表格所在页(用print功能
  2. 随便找个sota的大模型让它把pdf转markdown保留格式
  3. 随便找个大模型让它把markdown的表格转excel

--【伍】--:

我试试吧


--【陆】--:

整个文件没办法,截图让他生成就好,减少了一些劳动力感谢佬


--【柒】--:

感谢佬,好用麻了我靠,所有人都去用奥


--【捌】--:

或者还有 ocr.z.ai


--【玖】--:

学会用非结构化数据库这是我在 IBM 学到的技巧


--【拾】--:

+1 +1


--【拾壹】--:

mineru 你值得拥有


--【拾贰】--:

+1,确实好用


--【拾叁】--:

MinerU 或者 paddleocr


--【拾肆】--:

对的最近各厂都有ocr模型可以试试


--【拾伍】--:

丢给ChatGPT或Gemini让它识别创建Excel文件。

阅读全文
问题描述:

佬们,最近有在写一个论文是关于中国畜牧兽医年鉴的,好不容易在闲鱼拿到了历年的pdf数据,还要把统计数据转换成excel,但这格式的根本转不了,我试过excel转试过pandas的pdf转,这我真没招了
image1920×2560 1.45 MB

网友解答:
--【壹】--:

我try一下


--【贰】--:

去查查IBM 内部就这样用的,什么资料全丢进去说白了存万物
image1292×690 121 KB


--【叁】--:

我研究研究吧


--【肆】--:
  1. 导出表格所在页(用print功能
  2. 随便找个sota的大模型让它把pdf转markdown保留格式
  3. 随便找个大模型让它把markdown的表格转excel

--【伍】--:

我试试吧


--【陆】--:

整个文件没办法,截图让他生成就好,减少了一些劳动力感谢佬


--【柒】--:

感谢佬,好用麻了我靠,所有人都去用奥


--【捌】--:

或者还有 ocr.z.ai


--【玖】--:

学会用非结构化数据库这是我在 IBM 学到的技巧


--【拾】--:

+1 +1


--【拾壹】--:

mineru 你值得拥有


--【拾贰】--:

+1,确实好用


--【拾叁】--:

MinerU 或者 paddleocr


--【拾肆】--:

对的最近各厂都有ocr模型可以试试


--【拾伍】--:

丢给ChatGPT或Gemini让它识别创建Excel文件。

阅读全文