针对多图情况下VLM幻觉严重的问题有没有什么优化方法
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
--【壹】--:
最近在做一个项目,涉及到VLM对跨场景的三维图像理解和即时决策,当上传360x360图片大于三张时,VLM就要开始产生幻觉胡说八道,甚至无法按prompt中规定的标准格式返回答案
我在想单次上传8张图片和单次上传8张图片拼成的一张图片能不能节省token,但导致的注意力分散似乎使得幻觉问题更加严重
看了佬友的文章很有启发,但速度和费用是个很大问题,不知道有没有佬友有其他好方法。
> 由于整篇过长加个摘要:这篇文章起源于我发现在多图分析时,网页端的表现和 API 调用的结果一致性相差很大,然后我就一步步去拆为什么相差大,然后试图在工程上找补救的过程。 > 方法很简单,放在这里希望能帮到一些后来的人减少困惑和时间消耗。 前情提要 在几周前的一个课设, 课题是关于电池的缺陷检测和自动分拣. 当时的电池总样本只有不到十根, 缺陷主要体现是外皮缺失. 因为当时样本很少应…网友解答:
--【壹】--:
好巧,我也在准备着手这个问题,已知拼接这个思路有点麻烦,拼接感觉对模型图像理解的能力影响很大,我个人认为拼接可能会导致位置关系有点问题
我的思路是考虑多图按需拆成多轮单图,每轮次只考虑该轮次的一张到两张图像的问题,但是一个潜在的问题是,我担心这样维持会话,对应的长度会很有影响,如果五张乃至八张图里面每张图都有用,那显存是个很大的问题
蹲一蹲有没有佬有其他思路
问题描述:
--【壹】--:
最近在做一个项目,涉及到VLM对跨场景的三维图像理解和即时决策,当上传360x360图片大于三张时,VLM就要开始产生幻觉胡说八道,甚至无法按prompt中规定的标准格式返回答案
我在想单次上传8张图片和单次上传8张图片拼成的一张图片能不能节省token,但导致的注意力分散似乎使得幻觉问题更加严重
看了佬友的文章很有启发,但速度和费用是个很大问题,不知道有没有佬友有其他好方法。
> 由于整篇过长加个摘要:这篇文章起源于我发现在多图分析时,网页端的表现和 API 调用的结果一致性相差很大,然后我就一步步去拆为什么相差大,然后试图在工程上找补救的过程。 > 方法很简单,放在这里希望能帮到一些后来的人减少困惑和时间消耗。 前情提要 在几周前的一个课设, 课题是关于电池的缺陷检测和自动分拣. 当时的电池总样本只有不到十根, 缺陷主要体现是外皮缺失. 因为当时样本很少应…网友解答:
--【壹】--:
好巧,我也在准备着手这个问题,已知拼接这个思路有点麻烦,拼接感觉对模型图像理解的能力影响很大,我个人认为拼接可能会导致位置关系有点问题
我的思路是考虑多图按需拆成多轮单图,每轮次只考虑该轮次的一张到两张图像的问题,但是一个潜在的问题是,我担心这样维持会话,对应的长度会很有影响,如果五张乃至八张图里面每张图都有用,那显存是个很大的问题
蹲一蹲有没有佬有其他思路

