artificial analysis 测试 v4 flash max幻觉率排名倒数第一

2026-04-29 10:125阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

等一会看看Pro的成绩,不过我感觉应该不会很惊艳

PixPin2026-04-2415-52-26695×463 67.1 KB

网友解答:
--【壹】--:

这榜单真的准吗,grok4.20我自己用起来就是幻觉率高的吓人


--【贰】--:

grok幻觉高吗,我反而觉得他是幻觉最小的了,,


--【叁】--:

pro的成绩也在上面 综合来看感觉不太行 幻觉率高但是总体来看正确率尚可
image1469×953 110 KB
image1453×785 104 KB
image1449×684 99.4 KB


--【肆】--:

标题捉虫

是无幻觉率倒数第一

幻觉率倒数第一那不就是第一了吗


--【伍】--:

这是什么榜啊,我怎么没看过这个Non的榜


--【陆】--:

图片上的是幻觉率,贴主应该写错了


--【柒】--:

4.2是多Agent模式才能有效降低幻觉率吧,我一直用4Agent模式来核查信息,目前感觉幻觉率和信息准确性都还行


--【捌】--:
artificialanalysis.ai

DeepSeek V4 Pro (Max) - Intelligence, Performance & Price Analysis

Analysis of DeepSeek's DeepSeek V4 Pro (Reasoning, Max Effort) and comparison to other AI models across key metrics including quality, price, performance (tokens per second & time to first token), context window & more.

补充一个完整地址,可以了解该机构对DSv4的全部评测
注:是pro的,可以蹲一蹲


--【玖】--:

看到标题还以为是幻觉出现的最少,要不就改成无幻觉率


--【拾】--:

是的,之前v3最为诟病的就是幻觉问题,不过小模型一般幻觉率都高,等Pro成绩出来再看看吧


--【拾壹】--:

grok幻觉公认的低啊,特别是多agent交叉验证


--【拾贰】--:

稍等,幻觉率倒数第一不是代表着它表现好吗 0.0


--【拾叁】--:

当然高了,就不说思维链里哪些子代理经常发病,之前问codex怎么降低额度消耗速度,搜了一堆网页,在拿到官方文档的情况下,告诉我开启fast可以显著降低消耗


--【拾肆】--:

v4我自己还没有试过 但是如果这个榜单来看不太乐观啊… 想起了之前v3的时候那个超高的幻觉率 很大程度上v3那个时候的不可用就是超高的幻觉率导致的


--【拾伍】--:

你用的什么渠道的,官方渠道是6个agent混合架构,除了贵,没啥别的大问题


--【拾陆】--:

首先定义说的幻觉是哪个,其次感觉不如我的内测准


--【拾柒】--:
Artificial Analysis

AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis

Compare AI model performance on AA-Omniscience: Knowledge and Hallucination Benchmark. A benchmark measuring factual recall and hallucination across various economically relevant domains.

这里


--【拾捌】--:

大模型参数里混进去有FP4,我就不太看好啦,这精度损失太大了。


--【拾玖】--:

不说GPT5.5的成绩,单就Minimax m2.7的幻觉水平就很离谱,怎么排到这么前面的