artificial analysis 测试 v4 flash max幻觉率排名倒数第一
- 内容介绍
- 文章标签
- 相关推荐
等一会看看Pro的成绩,不过我感觉应该不会很惊艳
PixPin2026-04-2415-52-26695×463 67.1 KB
网友解答:--【壹】--:
这榜单真的准吗,grok4.20我自己用起来就是幻觉率高的吓人
--【贰】--:
grok幻觉高吗,我反而觉得他是幻觉最小的了,,
--【叁】--:
pro的成绩也在上面 综合来看感觉不太行 幻觉率高但是总体来看正确率尚可
image1469×953 110 KB
image1453×785 104 KB
image1449×684 99.4 KB
--【肆】--:
标题捉虫
是无幻觉率倒数第一
幻觉率倒数第一那不就是第一了吗
--【伍】--:
这是什么榜啊,我怎么没看过这个Non的榜
--【陆】--:
图片上的是无幻觉率,贴主应该写错了
--【柒】--:
4.2是多Agent模式才能有效降低幻觉率吧,我一直用4Agent模式来核查信息,目前感觉幻觉率和信息准确性都还行
--【捌】--:
DeepSeek V4 Pro (Max) - Intelligence, Performance & Price Analysis
Analysis of DeepSeek's DeepSeek V4 Pro (Reasoning, Max Effort) and comparison to other AI models across key metrics including quality, price, performance (tokens per second & time to first token), context window & more.
补充一个完整地址,可以了解该机构对DSv4的全部评测
注:是pro的,可以蹲一蹲
--【玖】--:
看到标题还以为是幻觉出现的最少,要不就改成无幻觉率
--【拾】--:
是的,之前v3最为诟病的就是幻觉问题,不过小模型一般幻觉率都高,等Pro成绩出来再看看吧
--【拾壹】--:
grok幻觉公认的低啊,特别是多agent交叉验证
--【拾贰】--:
稍等,幻觉率倒数第一不是代表着它表现好吗 0.0
--【拾叁】--:
当然高了,就不说思维链里哪些子代理经常发病,之前问codex怎么降低额度消耗速度,搜了一堆网页,在拿到官方文档的情况下,告诉我开启fast可以显著降低消耗
--【拾肆】--:
v4我自己还没有试过 但是如果这个榜单来看不太乐观啊… 想起了之前v3的时候那个超高的幻觉率 很大程度上v3那个时候的不可用就是超高的幻觉率导致的
--【拾伍】--:
你用的什么渠道的,官方渠道是6个agent混合架构,除了贵,没啥别的大问题
--【拾陆】--:
首先定义说的幻觉是哪个,其次感觉不如我的内测准
--【拾柒】--:
AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis
Compare AI model performance on AA-Omniscience: Knowledge and Hallucination Benchmark. A benchmark measuring factual recall and hallucination across various economically relevant domains.
这里
--【拾捌】--:
大模型参数里混进去有FP4,我就不太看好啦,这精度损失太大了。
--【拾玖】--:
不说GPT5.5的成绩,单就Minimax m2.7的幻觉水平就很离谱,怎么排到这么前面的
等一会看看Pro的成绩,不过我感觉应该不会很惊艳
PixPin2026-04-2415-52-26695×463 67.1 KB
网友解答:--【壹】--:
这榜单真的准吗,grok4.20我自己用起来就是幻觉率高的吓人
--【贰】--:
grok幻觉高吗,我反而觉得他是幻觉最小的了,,
--【叁】--:
pro的成绩也在上面 综合来看感觉不太行 幻觉率高但是总体来看正确率尚可
image1469×953 110 KB
image1453×785 104 KB
image1449×684 99.4 KB
--【肆】--:
标题捉虫
是无幻觉率倒数第一
幻觉率倒数第一那不就是第一了吗
--【伍】--:
这是什么榜啊,我怎么没看过这个Non的榜
--【陆】--:
图片上的是无幻觉率,贴主应该写错了
--【柒】--:
4.2是多Agent模式才能有效降低幻觉率吧,我一直用4Agent模式来核查信息,目前感觉幻觉率和信息准确性都还行
--【捌】--:
DeepSeek V4 Pro (Max) - Intelligence, Performance & Price Analysis
Analysis of DeepSeek's DeepSeek V4 Pro (Reasoning, Max Effort) and comparison to other AI models across key metrics including quality, price, performance (tokens per second & time to first token), context window & more.
补充一个完整地址,可以了解该机构对DSv4的全部评测
注:是pro的,可以蹲一蹲
--【玖】--:
看到标题还以为是幻觉出现的最少,要不就改成无幻觉率
--【拾】--:
是的,之前v3最为诟病的就是幻觉问题,不过小模型一般幻觉率都高,等Pro成绩出来再看看吧
--【拾壹】--:
grok幻觉公认的低啊,特别是多agent交叉验证
--【拾贰】--:
稍等,幻觉率倒数第一不是代表着它表现好吗 0.0
--【拾叁】--:
当然高了,就不说思维链里哪些子代理经常发病,之前问codex怎么降低额度消耗速度,搜了一堆网页,在拿到官方文档的情况下,告诉我开启fast可以显著降低消耗
--【拾肆】--:
v4我自己还没有试过 但是如果这个榜单来看不太乐观啊… 想起了之前v3的时候那个超高的幻觉率 很大程度上v3那个时候的不可用就是超高的幻觉率导致的
--【拾伍】--:
你用的什么渠道的,官方渠道是6个agent混合架构,除了贵,没啥别的大问题
--【拾陆】--:
首先定义说的幻觉是哪个,其次感觉不如我的内测准
--【拾柒】--:
AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis
Compare AI model performance on AA-Omniscience: Knowledge and Hallucination Benchmark. A benchmark measuring factual recall and hallucination across various economically relevant domains.
这里
--【拾捌】--:
大模型参数里混进去有FP4,我就不太看好啦,这精度损失太大了。
--【拾玖】--:
不说GPT5.5的成绩,单就Minimax m2.7的幻觉水平就很离谱,怎么排到这么前面的

