【求助】扫描版书籍PDF如何将其内容进行识别并结构化保存起来

2026-04-11 13:340阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

有没有大佬做过相关的呀?怎么做比较合适呢?直接用多模态大模型识别吗还是有其他方案呢?

网友解答:
--【壹】--:

好耶 谢谢佬~


--【贰】--:

飞桨orc注册个api。免费额度挺多的,可以转成md。然后配上ai洗一下就行


--【叁】--:

谢谢佬提供思路~


--【肆】--:

可以看看paperless-ngx


--【伍】--:

帮顶 ,关注,学习


--【陆】--:

好滴好滴!


--【柒】--:

看看 MinerU 和 Marker,先转成 markdown 再做后续处理,不是用多模态大模型直接识别


--【捌】--:

Mineru了解一下,会生成一个文件名_middle.json。你可以把那个中间文件扔给agent,让它根据文档想想怎么洗一洗,处理成你想要的形式


--【玖】--:

好的佬~我去了解一下

标签:快问快答
问题描述:

有没有大佬做过相关的呀?怎么做比较合适呢?直接用多模态大模型识别吗还是有其他方案呢?

网友解答:
--【壹】--:

好耶 谢谢佬~


--【贰】--:

飞桨orc注册个api。免费额度挺多的,可以转成md。然后配上ai洗一下就行


--【叁】--:

谢谢佬提供思路~


--【肆】--:

可以看看paperless-ngx


--【伍】--:

帮顶 ,关注,学习


--【陆】--:

好滴好滴!


--【柒】--:

看看 MinerU 和 Marker,先转成 markdown 再做后续处理,不是用多模态大模型直接识别


--【捌】--:

Mineru了解一下,会生成一个文件名_middle.json。你可以把那个中间文件扔给agent,让它根据文档想想怎么洗一洗,处理成你想要的形式


--【玖】--:

好的佬~我去了解一下

标签:快问快答