Artificial Analysis有GLM5.1和Qwen3.6 plus的数据了

2026-04-11 10:301阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

AI Model & API Providers Analysis | Artificial Analysis
非常不错，分别排名第5第6。
以前国模刷分都刷不到点子上，这次几个关键的指标都还不错。

一个是 Long Context Reasoning Benchmark
评估的是长上下文的召回率，非常实用，Qwen3.6 plus有69.7%，接近Claude三个模型的水平。

第二个是 AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis
评估的是全模态科学问题能力，我比较关注的是AI幻觉率。
以往的国模很容易在这个问题上翻车。这次GLM5.1和Qwen3.6 plus在这个指标上都很亮眼。

最后一个是 GDPval-AA Leaderboard | Artificial Analysis
评估真实世界Agent执行能力。在Coding Agent中，这个指标比总的Index更重要。
Gemini就是在这个测试中翻车，跟大家在Agent中感觉Google模型垃圾匹配上了。

可惜的是，这俩模型还是没有达到Sonnet4.6的水平。

网友解答：

--【壹】--：

gemini不是很弱吗，为什么在这里这么高。噢是因为虽然代码很弱但是世界知识强吗

--【贰】--：

这么理解就跟实际使用对照上了。只看分数1分跟没差一样……

--【叁】--：

上次看见这个榜是小米的模型，小米的ppt和实际去网站看似乎不一样。所有这个到底是不是野榜

--【肆】--：

Sonnet 4.6 和 opus 4.6 竟然只差一分

--【伍】--：

sonnet对任务的执行比opus要好。
opus有的时候会过度思考。

善于思考的模型不一定善于执行，善于执行的模型不一定善于思考。

--【陆】--：

index上差1分，实际差很多，因为差距会级联。

一个不严谨的计算：
opus4.6 53分，sonnet 52分。
按照一次prompt 15次LLM调用，最后总分比为
53 ^ 15 / 52 ^ 15 ≈ 1.33
可以提高30%的性能

--【柒】--：

这么看感觉米沫儿也不错吧，整体国模里面也互有胜负了说是

--【捌】--：

image2619×922 336 KB
那这个榜sonnet分比opus分还高又怎么说呢。

标签：人工智能