针对多图情况下VLM幻觉严重的问题有没有什么优化方法

2026-04-11 15:240阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

最近在做一个项目，涉及到VLM对跨场景的三维图像理解和即时决策，当上传360x360图片大于三张时，VLM就要开始产生幻觉胡说八道，甚至无法按prompt中规定的标准格式返回答案
我在想单次上传8张图片和单次上传8张图片拼成的一张图片能不能节省token，但导致的注意力分散似乎使得幻觉问题更加严重
看了佬友的文章很有启发，但速度和费用是个很大问题，不知道有没有佬友有其他好方法。

单图≠多图：多图理解时 VLM 为什么更容易“胡说”，以及一个两阶段解法开发调优

> 由于整篇过长加个摘要：这篇文章起源于我发现在多图分析时，网页端的表现和 API 调用的结果一致性相差很大，然后我就一步步去拆为什么相差大，然后试图在工程上找补救的过程。 > 方法很简单，放在这里希望能帮到一些后来的人减少困惑和时间消耗。前情提要在几周前的一个课设, 课题是关于电池的缺陷检测和自动分拣. 当时的电池总样本只有不到十根, 缺陷主要体现是外皮缺失. 因为当时样本很少应…

网友解答：

--【壹】--：

好巧，我也在准备着手这个问题，已知拼接这个思路有点麻烦，拼接感觉对模型图像理解的能力影响很大，我个人认为拼接可能会导致位置关系有点问题
我的思路是考虑多图按需拆成多轮单图，每轮次只考虑该轮次的一张到两张图像的问题，但是一个潜在的问题是，我担心这样维持会话，对应的长度会很有影响，如果五张乃至八张图里面每张图都有用，那显存是个很大的问题
蹲一蹲有没有佬有其他思路

标签：人工智能快问快答