论文数据难题,这pdf是ocr的根本转不了excel
- 内容介绍
- 文章标签
- 相关推荐
佬们,最近有在写一个论文是关于中国畜牧兽医年鉴的,好不容易在闲鱼拿到了历年的pdf数据,还要把统计数据转换成excel,但这格式的根本转不了,我试过excel转试过pandas的pdf转,这我真没招了
image1920×2560 1.45 MB
--【壹】--:
我try一下
--【贰】--:
去查查IBM 内部就这样用的,什么资料全丢进去说白了存万物
image1292×690 121 KB
--【叁】--:
我研究研究吧
--【肆】--:
- 导出表格所在页(用print功能
- 随便找个sota的大模型让它把pdf转markdown保留格式
- 随便找个大模型让它把markdown的表格转excel
--【伍】--:
我试试吧
--【陆】--:
整个文件没办法,截图让他生成就好,减少了一些劳动力感谢佬
--【柒】--:
感谢佬,好用麻了我靠,所有人都去用奥
--【捌】--:
或者还有 ocr.z.ai
--【玖】--:
学会用非结构化数据库这是我在 IBM 学到的技巧
--【拾】--:
+1 +1
--【拾壹】--:
mineru 你值得拥有
--【拾贰】--:
+1,确实好用
--【拾叁】--:
MinerU 或者 paddleocr
--【拾肆】--:
对的最近各厂都有ocr模型可以试试
--【拾伍】--:
丢给ChatGPT或Gemini让它识别创建Excel文件。如果很多内容需要识别,可以使用GPT5.4 Pro,写一个好提示词让它识别后自主校对,应该可以完成任务
--【拾陆】--:
有文档提取的模型 MinerU
还有客户端。也可以自己部署
MinerU 客户端下载 | 免费 PDF 桌面工具
下载 MinerU 桌面客户端,支持 Windows、macOS、Linux。离线批量处理,保护隐私,更快速度。
--【拾柒】--:
最好用ChatGPT官网,它系统自带各种工具。
--【拾捌】--:
佬咱之间有信息差,我没太懂
佬们,最近有在写一个论文是关于中国畜牧兽医年鉴的,好不容易在闲鱼拿到了历年的pdf数据,还要把统计数据转换成excel,但这格式的根本转不了,我试过excel转试过pandas的pdf转,这我真没招了
image1920×2560 1.45 MB
--【壹】--:
我try一下
--【贰】--:
去查查IBM 内部就这样用的,什么资料全丢进去说白了存万物
image1292×690 121 KB
--【叁】--:
我研究研究吧
--【肆】--:
- 导出表格所在页(用print功能
- 随便找个sota的大模型让它把pdf转markdown保留格式
- 随便找个大模型让它把markdown的表格转excel
--【伍】--:
我试试吧
--【陆】--:
整个文件没办法,截图让他生成就好,减少了一些劳动力感谢佬
--【柒】--:
感谢佬,好用麻了我靠,所有人都去用奥
--【捌】--:
或者还有 ocr.z.ai
--【玖】--:
学会用非结构化数据库这是我在 IBM 学到的技巧
--【拾】--:
+1 +1
--【拾壹】--:
mineru 你值得拥有
--【拾贰】--:
+1,确实好用
--【拾叁】--:
MinerU 或者 paddleocr
--【拾肆】--:
对的最近各厂都有ocr模型可以试试
--【拾伍】--:
丢给ChatGPT或Gemini让它识别创建Excel文件。如果很多内容需要识别,可以使用GPT5.4 Pro,写一个好提示词让它识别后自主校对,应该可以完成任务
--【拾陆】--:
有文档提取的模型 MinerU
还有客户端。也可以自己部署
MinerU 客户端下载 | 免费 PDF 桌面工具
下载 MinerU 桌面客户端,支持 Windows、macOS、Linux。离线批量处理,保护隐私,更快速度。
--【拾柒】--:
最好用ChatGPT官网,它系统自带各种工具。
--【拾捌】--:
佬咱之间有信息差,我没太懂

