artificial analysis 测试 v4 flash max幻觉率排名倒数第一

2026-04-29 10:125阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

等一会看看Pro的成绩，不过我感觉应该不会很惊艳

PixPin2026-04-2415-52-26695×463 67.1 KB

网友解答：

--【壹】--：

这榜单真的准吗，grok4.20我自己用起来就是幻觉率高的吓人

--【贰】--：

grok幻觉高吗，我反而觉得他是幻觉最小的了，，

--【叁】--：

pro的成绩也在上面综合来看感觉不太行幻觉率高但是总体来看正确率尚可
image1469×953 110 KB
image1453×785 104 KB
image1449×684 99.4 KB

--【肆】--：

标题捉虫

是无幻觉率倒数第一

幻觉率倒数第一那不就是第一了吗

--【伍】--：

这是什么榜啊，我怎么没看过这个Non的榜

--【陆】--：

图片上的是无幻觉率，贴主应该写错了

--【柒】--：

4.2是多Agent模式才能有效降低幻觉率吧，我一直用4Agent模式来核查信息，目前感觉幻觉率和信息准确性都还行

--【捌】--：

artificialanalysis.ai

DeepSeek V4 Pro (Max) - Intelligence, Performance & Price Analysis

Analysis of DeepSeek's DeepSeek V4 Pro (Reasoning, Max Effort) and comparison to other AI models across key metrics including quality, price, performance (tokens per second & time to first token), context window & more.

补充一个完整地址，可以了解该机构对DSv4的全部评测
注：是pro的，可以蹲一蹲

--【玖】--：

看到标题还以为是幻觉出现的最少，要不就改成无幻觉率

--【拾】--：

是的，之前v3最为诟病的就是幻觉问题，不过小模型一般幻觉率都高，等Pro成绩出来再看看吧

--【拾壹】--：

grok幻觉公认的低啊，特别是多agent交叉验证

--【拾贰】--：

稍等，幻觉率倒数第一不是代表着它表现好吗 0.0

--【拾叁】--：

当然高了，就不说思维链里哪些子代理经常发病，之前问codex怎么降低额度消耗速度，搜了一堆网页，在拿到官方文档的情况下，告诉我开启fast可以显著降低消耗

--【拾肆】--：

v4我自己还没有试过但是如果这个榜单来看不太乐观啊… 想起了之前v3的时候那个超高的幻觉率很大程度上v3那个时候的不可用就是超高的幻觉率导致的

--【拾伍】--：

你用的什么渠道的，官方渠道是6个agent混合架构，除了贵，没啥别的大问题

--【拾陆】--：

首先定义说的幻觉是哪个，其次感觉不如我的内测准

--【拾柒】--：

Artificial Analysis

AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis

Compare AI model performance on AA-Omniscience: Knowledge and Hallucination Benchmark. A benchmark measuring factual recall and hallucination across various economically relevant domains.

这里

--【拾捌】--：

大模型参数里混进去有FP4，我就不太看好啦，这精度损失太大了。

--【拾玖】--：

不说GPT5.5的成绩，单就Minimax m2.7的幻觉水平就很离谱，怎么排到这么前面的

标签：人工智能

问题描述：

等一会看看Pro的成绩，不过我感觉应该不会很惊艳

PixPin2026-04-2415-52-26695×463 67.1 KB

网友解答：

--【壹】--：

这榜单真的准吗，grok4.20我自己用起来就是幻觉率高的吓人

--【贰】--：

grok幻觉高吗，我反而觉得他是幻觉最小的了，，

--【叁】--：

pro的成绩也在上面综合来看感觉不太行幻觉率高但是总体来看正确率尚可
image1469×953 110 KB
image1453×785 104 KB
image1449×684 99.4 KB

--【肆】--：

标题捉虫

是无幻觉率倒数第一

幻觉率倒数第一那不就是第一了吗

--【伍】--：

这是什么榜啊，我怎么没看过这个Non的榜

--【陆】--：

图片上的是无幻觉率，贴主应该写错了

--【柒】--：

4.2是多Agent模式才能有效降低幻觉率吧，我一直用4Agent模式来核查信息，目前感觉幻觉率和信息准确性都还行

--【捌】--：

artificialanalysis.ai

DeepSeek V4 Pro (Max) - Intelligence, Performance & Price Analysis

补充一个完整地址，可以了解该机构对DSv4的全部评测
注：是pro的，可以蹲一蹲

--【玖】--：

看到标题还以为是幻觉出现的最少，要不就改成无幻觉率

--【拾】--：

是的，之前v3最为诟病的就是幻觉问题，不过小模型一般幻觉率都高，等Pro成绩出来再看看吧

--【拾壹】--：

grok幻觉公认的低啊，特别是多agent交叉验证

--【拾贰】--：

稍等，幻觉率倒数第一不是代表着它表现好吗 0.0

--【拾叁】--：

--【拾肆】--：

v4我自己还没有试过但是如果这个榜单来看不太乐观啊… 想起了之前v3的时候那个超高的幻觉率很大程度上v3那个时候的不可用就是超高的幻觉率导致的

--【拾伍】--：

你用的什么渠道的，官方渠道是6个agent混合架构，除了贵，没啥别的大问题

--【拾陆】--：

首先定义说的幻觉是哪个，其次感觉不如我的内测准

--【拾柒】--：

Artificial Analysis

AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis

Compare AI model performance on AA-Omniscience: Knowledge and Hallucination Benchmark. A benchmark measuring factual recall and hallucination across various economically relevant domains.

这里

--【拾捌】--：

大模型参数里混进去有FP4，我就不太看好啦，这精度损失太大了。

--【拾玖】--：

不说GPT5.5的成绩，单就Minimax m2.7的幻觉水平就很离谱，怎么排到这么前面的

标签：人工智能

DeepSeek V4 Pro (Max) - Intelligence, Performance & Price Analysis

AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis

相关推荐

DeepSeek V4 Pro (Max) - Intelligence, Performance & Price Analysis

AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis

相关推荐