通义实验室正式开源 VimRAG——面向「文本+图像+视频」混合知识库的统一 RAG 框架
- 内容介绍
- 文章标签
- 相关推荐
给大模型接上企业知识库(RAG)已是行业标配。它让 AI 告别 “凭空捏造”,回答有据可查。但当知识库从纯文档升级为图文、视频交织的立体资产时,传统方案就开始力不从心了。
想象一家制造企业的真实知识库:
- 10 万份 PDF 技术文档(文字 + 图表)
- 5 万张 CAD 设计图和产线照片
- 上千条操作培训视频,每条 30-60 分钟
当客户问出:“去年 Q3 产品的设计变化了哪些方面?会议录像里是怎么讨论这个设计的?” 这才是真正的地狱难度。你不仅要横跨三种模态,还要让 AI 理解它们之间的隐式关联:会议纪要是 PDF 里的文字,设计变更在 CAD 图纸的标注层,力学测试的解释藏在第 47 分钟的视频对白里。
这正是全模态长上下文 RAG 落地的典型困境,为破解这一难题,通义实验室正式开源 VimRAG—— 面向「文本 + 图像 + 视频」混合知识库的统一 RAG 框架
Qwen2.5-VL-7B-VRAG
ModelScope——汇聚各领域先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里,共建模型开源社区,发现、学习、定制和分享心仪的模型。
网友解答:--【壹】--:
话说这是在2.5版本上继续训练出来的吧,我看Qwen3-VL-8B也是多模态为啥不用新一点的,还有3.5的4B 9B似乎也都是多模态
--【贰】--:
这个和qwen 3 vl embedding+ qwen 3
vl reranker组合起来比咋样
--【叁】--:
感觉就是用graph形式存储多模态的数据,然后构建了agent,用RL训练agent,最后打包了一下吧
--【肆】--:
官方的推文这么写的,不确定是真的行,还是有些夸大。
只能部署个跑跑试试
--【伍】--:
感觉索引+召回的痛点似乎都没解决
不大看好
--【陆】--: 飛空:
5 万张 CAD 设计图和产线照片
这东西壁垒可强啊,佬有内部消息吗,我看他魔搭里面没说可以识别CAD设计图
给大模型接上企业知识库(RAG)已是行业标配。它让 AI 告别 “凭空捏造”,回答有据可查。但当知识库从纯文档升级为图文、视频交织的立体资产时,传统方案就开始力不从心了。
想象一家制造企业的真实知识库:
- 10 万份 PDF 技术文档(文字 + 图表)
- 5 万张 CAD 设计图和产线照片
- 上千条操作培训视频,每条 30-60 分钟
当客户问出:“去年 Q3 产品的设计变化了哪些方面?会议录像里是怎么讨论这个设计的?” 这才是真正的地狱难度。你不仅要横跨三种模态,还要让 AI 理解它们之间的隐式关联:会议纪要是 PDF 里的文字,设计变更在 CAD 图纸的标注层,力学测试的解释藏在第 47 分钟的视频对白里。
这正是全模态长上下文 RAG 落地的典型困境,为破解这一难题,通义实验室正式开源 VimRAG—— 面向「文本 + 图像 + 视频」混合知识库的统一 RAG 框架
Qwen2.5-VL-7B-VRAG
ModelScope——汇聚各领域先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里,共建模型开源社区,发现、学习、定制和分享心仪的模型。
网友解答:--【壹】--:
话说这是在2.5版本上继续训练出来的吧,我看Qwen3-VL-8B也是多模态为啥不用新一点的,还有3.5的4B 9B似乎也都是多模态
--【贰】--:
这个和qwen 3 vl embedding+ qwen 3
vl reranker组合起来比咋样
--【叁】--:
感觉就是用graph形式存储多模态的数据,然后构建了agent,用RL训练agent,最后打包了一下吧
--【肆】--:
官方的推文这么写的,不确定是真的行,还是有些夸大。
只能部署个跑跑试试
--【伍】--:
感觉索引+召回的痛点似乎都没解决
不大看好
--【陆】--: 飛空:
5 万张 CAD 设计图和产线照片
这东西壁垒可强啊,佬有内部消息吗,我看他魔搭里面没说可以识别CAD设计图

