【求助】扫描版书籍PDF如何将其内容进行识别并结构化保存起来
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
--【壹】--:
--【贰】--:
--【叁】--:
--【肆】--:
--【伍】--:
--【陆】--:
--【柒】--:
--【捌】--:
--【玖】--:
有没有大佬做过相关的呀?怎么做比较合适呢?直接用多模态大模型识别吗还是有其他方案呢?
网友解答:--【壹】--:
好耶 谢谢佬~
--【贰】--:
飞桨orc注册个api。免费额度挺多的,可以转成md。然后配上ai洗一下就行
--【叁】--:
谢谢佬提供思路~
--【肆】--:
可以看看paperless-ngx
--【伍】--:
帮顶 ,关注,学习
--【陆】--:
好滴好滴!
--【柒】--:
看看 MinerU 和 Marker,先转成 markdown 再做后续处理,不是用多模态大模型直接识别
--【捌】--:
Mineru了解一下,会生成一个文件名_middle.json。你可以把那个中间文件扔给agent,让它根据文档想想怎么洗一洗,处理成你想要的形式
--【玖】--:
好的佬~我去了解一下
问题描述:
--【壹】--:
--【贰】--:
--【叁】--:
--【肆】--:
--【伍】--:
--【陆】--:
--【柒】--:
--【捌】--:
--【玖】--:
有没有大佬做过相关的呀?怎么做比较合适呢?直接用多模态大模型识别吗还是有其他方案呢?
网友解答:--【壹】--:
好耶 谢谢佬~
--【贰】--:
飞桨orc注册个api。免费额度挺多的,可以转成md。然后配上ai洗一下就行
--【叁】--:
谢谢佬提供思路~
--【肆】--:
可以看看paperless-ngx
--【伍】--:
帮顶 ,关注,学习
--【陆】--:
好滴好滴!
--【柒】--:
看看 MinerU 和 Marker,先转成 markdown 再做后续处理,不是用多模态大模型直接识别
--【捌】--:
Mineru了解一下,会生成一个文件名_middle.json。你可以把那个中间文件扔给agent,让它根据文档想想怎么洗一洗,处理成你想要的形式
--【玖】--:
好的佬~我去了解一下

