腾讯开源多模态深度搜索全家桶OpenSearch-VL,有何亮点?
- 内容介绍
- 文章标签
- 相关推荐
本文共计968个文字,预计阅读时间需要4分钟。
研究团队强化,当前约定模型向纵向深入推理论演的首要障碍,在于缺乏能真实反映复杂搜索行为的优质监控信号。为培育具备多步逻辑推理链路的智能体,团队设计了一套严谨的数据浸泡机制。
该机制以维基百科超链接网络为结构基础,进行多跳路径采样,将抽象知识关系具象为可执行的多阶段问答任务。为杜绝模型走“语义捷径”,团队采用实体模糊重写策略隐去显式答案线索,并融合基于源码锚点的视觉定位模块,强制模型必须先解析图像内容,再协同外部工具展开渐进式检索,从而规避因工具误用引发的功能性退化。依托该范式,项目构建了涵盖3.6万条指令微调轨迹的 SearchVL-SFT 数据集,以及8000条专用于强化学习优化的 SearchVL-RL 轨迹数据集。
全栈感知工具箱:不止于检索,更在于“预处理式理解”
OpenSearch-VL 的能力边界远超传统文本驱动的搜索框架。在真实应用场景中,用户上传的图像常面临模糊、畸变、低分辨率或文字遮挡等问题,直接输入标准搜索引擎往往导致结果失效。
为此,项目构建了一个鲁棒性强、功能完备的工具生态体系:除常规网页搜索与反向图像检索外,还深度集成 OCR 文字提取、智能图像裁剪、自适应锐化、轻量级超分辨率重建,以及几何感知的透视矫正模块。这意味着智能体在发起外部知识查询前,会模拟人类视觉认知过程,主动对原始图像进行语义增强与结构修复,显著提升后续跨模态检索的可靠性与准确性。
故障驱动型学习机制:“失败亦是有效训练信号”
在长程、多步骤的搜索任务中,工具调用极易因超时、API异常或格式错误而中断,进而引发整条推理链崩溃。传统强化学习方法通常将此类失败轨迹整体剔除,造成大量潜在有用决策片段被浪费。
OpenSearch-VL 创新提出 “多轮故障感知 GRPO” 训练范式。该算法可精准识别工具交互中的关键“断点”,通过动态掩码屏蔽失败节点之后的冗余动作序列,并借助单边优势钳制(One-sided advantage clamping)机制,保留故障发生前已验证有效的策略片段。由此,模型得以在不完美轨迹中持续提炼稳健的探索逻辑与路径规划能力。
实测性能直追头部闭源系统
实验表明,OpenSearch-VL 在七项主流多模态深度搜索评测基准上全面领先,平均指标提升逾10个百分点。在部分高难度推理类子任务中,其表现已达到当前最优商业私有模型的同等水平。
目前,项目已宣布将全部训练数据、完整训练代码、推理框架及模型权重向全球开发者免费开放,致力于打造一个可复现、可扩展、可迭代的多模态智能体基础设施,加速学术界与工业界共同驶入多模态Agent研究的“深水区”。
论文地址:https://www.php.cn/link/05ede5cedad6c61ef99376296b0699ef
本文共计968个文字,预计阅读时间需要4分钟。
研究团队强化,当前约定模型向纵向深入推理论演的首要障碍,在于缺乏能真实反映复杂搜索行为的优质监控信号。为培育具备多步逻辑推理链路的智能体,团队设计了一套严谨的数据浸泡机制。
该机制以维基百科超链接网络为结构基础,进行多跳路径采样,将抽象知识关系具象为可执行的多阶段问答任务。为杜绝模型走“语义捷径”,团队采用实体模糊重写策略隐去显式答案线索,并融合基于源码锚点的视觉定位模块,强制模型必须先解析图像内容,再协同外部工具展开渐进式检索,从而规避因工具误用引发的功能性退化。依托该范式,项目构建了涵盖3.6万条指令微调轨迹的 SearchVL-SFT 数据集,以及8000条专用于强化学习优化的 SearchVL-RL 轨迹数据集。
全栈感知工具箱:不止于检索,更在于“预处理式理解”
OpenSearch-VL 的能力边界远超传统文本驱动的搜索框架。在真实应用场景中,用户上传的图像常面临模糊、畸变、低分辨率或文字遮挡等问题,直接输入标准搜索引擎往往导致结果失效。
为此,项目构建了一个鲁棒性强、功能完备的工具生态体系:除常规网页搜索与反向图像检索外,还深度集成 OCR 文字提取、智能图像裁剪、自适应锐化、轻量级超分辨率重建,以及几何感知的透视矫正模块。这意味着智能体在发起外部知识查询前,会模拟人类视觉认知过程,主动对原始图像进行语义增强与结构修复,显著提升后续跨模态检索的可靠性与准确性。
故障驱动型学习机制:“失败亦是有效训练信号”
在长程、多步骤的搜索任务中,工具调用极易因超时、API异常或格式错误而中断,进而引发整条推理链崩溃。传统强化学习方法通常将此类失败轨迹整体剔除,造成大量潜在有用决策片段被浪费。
OpenSearch-VL 创新提出 “多轮故障感知 GRPO” 训练范式。该算法可精准识别工具交互中的关键“断点”,通过动态掩码屏蔽失败节点之后的冗余动作序列,并借助单边优势钳制(One-sided advantage clamping)机制,保留故障发生前已验证有效的策略片段。由此,模型得以在不完美轨迹中持续提炼稳健的探索逻辑与路径规划能力。
实测性能直追头部闭源系统
实验表明,OpenSearch-VL 在七项主流多模态深度搜索评测基准上全面领先,平均指标提升逾10个百分点。在部分高难度推理类子任务中,其表现已达到当前最优商业私有模型的同等水平。
目前,项目已宣布将全部训练数据、完整训练代码、推理框架及模型权重向全球开发者免费开放,致力于打造一个可复现、可扩展、可迭代的多模态智能体基础设施,加速学术界与工业界共同驶入多模态Agent研究的“深水区”。
论文地址:https://www.php.cn/link/05ede5cedad6c61ef99376296b0699ef

