Vision Banana评测基准数据集包含RefCOCOg和ReasonSeg，请问这两个数据集具体是什么？

2026-04-27 19:140阅读0评论SEO教程

内容介绍
文章标签
相关推荐

本文共计691个文字，预计阅读时间需要3分钟。

Vision Banana评测基准数据集包含RefCOCOg和ReasonSeg，请问这两个数据集具体是什么？

Vision Banana的专用评测基准是：

RefCOCOg：聚焦指代表达定位，非生成式分割基准

RefCOCOg 是 RefCOCO 系列中更细粒度的子集，强调自然语言描述与图像中唯一目标的精准对应（例如“穿着红裙子站在树旁的女孩”）。其核心任务是定位（localization）——输出边界框或掩码，而非生成可视化图。它常用于评估视觉语言对齐能力，典型模型如 GroundingDINO、SAM+CLIP 融合方案。Vision Banana 的统一生成范式虽能间接覆盖该任务（如用 Prompt 指令“把 RefCOCOg 描述的目标涂成蓝色”），但论文未报告其在该数据集上的定量结果。

ReasonSeg：强调推理过程的像素级分割任务

ReasonSeg 是一个结构化推理导向的分割数据集，要求模型不仅输出掩码，还需生成可解释的中间推理链（如“因为物体有轮子且在路面上 → 判定为汽车 → 分割车身区域”）。它被 VisionReasoner 明确列为测试基准，并在实验中取得 22.1% 相对提升。Vision Banana 的设计哲学不同：它不显式建模推理步骤，而是将“理解”压缩进生成过程——通过 Prompt 引导生成带语义颜色映射的图，再解码为掩码。这种隐式推理未在 ReasonSeg 的链式评估协议下验证。

阅读全文

标签：Vision veo3 visionbanana coco

本文共计691个文字，预计阅读时间需要3分钟。

Vision Banana的专用评测基准是：

RefCOCOg：聚焦指代表达定位，非生成式分割基准

ReasonSeg：强调推理过程的像素级分割任务

阅读全文

标签：Vision veo3 visionbanana coco

RefCOCOg：聚焦指代表达定位，非生成式分割基准

ReasonSeg：强调推理过程的像素级分割任务

相关推荐

RefCOCOg：聚焦指代表达定位，非生成式分割基准

ReasonSeg：强调推理过程的像素级分割任务

相关推荐