【求助】扫描版书籍PDF如何将其内容进行识别并结构化保存起来

2026-04-11 13:340阅读0评论SEO问题

问题描述：

有没有大佬做过相关的呀？怎么做比较合适呢？直接用多模态大模型识别吗还是有其他方案呢？

网友解答：

--【壹】--：

好耶谢谢佬~

--【贰】--：

飞桨orc注册个api。免费额度挺多的，可以转成md。然后配上ai洗一下就行

--【叁】--：

谢谢佬提供思路~

--【肆】--：

可以看看paperless-ngx

--【伍】--：

帮顶，关注，学习

--【陆】--：

好滴好滴！

--【柒】--：

看看 MinerU 和 Marker，先转成 markdown 再做后续处理，不是用多模态大模型直接识别

--【捌】--：

Mineru了解一下，会生成一个文件名_middle.json。你可以把那个中间文件扔给agent，让它根据文档想想怎么洗一洗，处理成你想要的形式

--【玖】--：

好的佬~我去了解一下