腾讯开源多模态深度搜索全家桶OpenSearch-VL，有何亮点？

2026-05-07 23:401阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

本文共计968个文字，预计阅读时间需要4分钟。

研究团队强化，当前约定模型向纵向深入推理论演的首要障碍，在于缺乏能真实反映复杂搜索行为的优质监控信号。为培育具备多步逻辑推理链路的智能体，团队设计了一套严谨的数据浸泡机制。

该机制以维基百科超链接网络为结构基础，进行多跳路径采样，将抽象知识关系具象为可执行的多阶段问答任务。为杜绝模型走“语义捷径”，团队采用实体模糊重写策略隐去显式答案线索，并融合基于源码锚点的视觉定位模块，强制模型必须先解析图像内容，再协同外部工具展开渐进式检索，从而规避因工具误用引发的功能性退化。依托该范式，项目构建了涵盖3.6万条指令微调轨迹的 SearchVL-SFT 数据集，以及8000条专用于强化学习优化的 SearchVL-RL 轨迹数据集。

全栈感知工具箱：不止于检索，更在于“预处理式理解”

OpenSearch-VL 的能力边界远超传统文本驱动的搜索框架。在真实应用场景中，用户上传的图像常面临模糊、畸变、低分辨率或文字遮挡等问题，直接输入标准搜索引擎往往导致结果失效。

为此，项目构建了一个鲁棒性强、功能完备的工具生态体系：除常规网页搜索与反向图像检索外，还深度集成 OCR 文字提取、智能图像裁剪、自适应锐化、轻量级超分辨率重建，以及几何感知的透视矫正模块。这意味着智能体在发起外部知识查询前，会模拟人类视觉认知过程，主动对原始图像进行语义增强与结构修复，显著提升后续跨模态检索的可靠性与准确性。

故障驱动型学习机制：“失败亦是有效训练信号”

在长程、多步骤的搜索任务中，工具调用极易因超时、API异常或格式错误而中断，进而引发整条推理链崩溃。传统强化学习方法通常将此类失败轨迹整体剔除，造成大量潜在有用决策片段被浪费。

OpenSearch-VL 创新提出 “多轮故障感知 GRPO” 训练范式。该算法可精准识别工具交互中的关键“断点”，通过动态掩码屏蔽失败节点之后的冗余动作序列，并借助单边优势钳制（One-sided advantage clamping）机制，保留故障发生前已验证有效的策略片段。由此，模型得以在不完美轨迹中持续提炼稳健的探索逻辑与路径规划能力。

实测性能直追头部闭源系统

实验表明，OpenSearch-VL 在七项主流多模态深度搜索评测基准上全面领先，平均指标提升逾10个百分点。在部分高难度推理类子任务中，其表现已达到当前最优商业私有模型的同等水平。

目前，项目已宣布将全部训练数据、完整训练代码、推理框架及模型权重向全球开发者免费开放，致力于打造一个可复现、可扩展、可迭代的多模态智能体基础设施，加速学术界与工业界共同驶入多模态Agent研究的“深水区”。

论文地址：https://www.php.cn/link/05ede5cedad6c61ef99376296b0699ef

标签：腾讯 opensea 腾讯混元 ARC

本文共计968个文字，预计阅读时间需要4分钟。

全栈感知工具箱：不止于检索，更在于“预处理式理解”

故障驱动型学习机制：“失败亦是有效训练信号”

实测性能直追头部闭源系统

相关推荐

全栈感知工具箱：不止于检索，更在于“预处理式理解”

故障驱动型学习机制：“失败亦是有效训练信号”

实测性能直追头部闭源系统

相关推荐