Artificial Analysis有GLM5.1和Qwen3.6 plus的数据了

2026-04-11 10:301阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

AI Model & API Providers Analysis | Artificial Analysis
非常不错,分别排名第5第6。
以前国模刷分都刷不到点子上,这次几个关键的指标都还不错。

一个是 Long Context Reasoning Benchmark
评估的是长上下文的召回率,非常实用,Qwen3.6 plus有69.7%,接近Claude三个模型的水平。

第二个是 AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis
评估的是全模态科学问题能力,我比较关注的是AI幻觉率。
以往的国模很容易在这个问题上翻车。这次GLM5.1和Qwen3.6 plus在这个指标上都很亮眼。

最后一个是 GDPval-AA Leaderboard | Artificial Analysis
评估真实世界Agent执行能力。在Coding Agent中,这个指标比总的Index更重要。
Gemini就是在这个测试中翻车,跟大家在Agent中感觉Google模型垃圾匹配上了。

可惜的是,这俩模型还是没有达到Sonnet4.6的水平。

网友解答:
--【壹】--:

gemini不是很弱吗,为什么在这里这么高。噢是因为虽然代码很弱但是世界知识强吗


--【贰】--:

这么理解就跟实际使用对照上了。只看分数1分跟没差一样……


--【叁】--:

上次看见这个榜是小米的模型,小米的ppt和实际去网站看似乎不一样。所有这个到底是不是野榜


--【肆】--:

Sonnet 4.6 和 opus 4.6 竟然只差一分


--【伍】--:

sonnet对任务的执行比opus要好。
opus有的时候会过度思考。

善于思考的模型不一定善于执行,善于执行的模型不一定善于思考。


--【陆】--:

index上差1分,实际差很多,因为差距会级联。

一个不严谨的计算:
opus4.6 53分,sonnet 52分。
按照一次prompt 15次LLM调用,最后总分比为
53 ^ 15 / 52 ^ 15 ≈ 1.33
可以提高30%的性能


--【柒】--:

这么看感觉米沫儿也不错吧,整体国模里面也互有胜负了说是


--【捌】--:

image2619×922 336 KB
那这个榜sonnet分比opus分还高又怎么说呢。

标签:人工智能
问题描述:

AI Model & API Providers Analysis | Artificial Analysis
非常不错,分别排名第5第6。
以前国模刷分都刷不到点子上,这次几个关键的指标都还不错。

一个是 Long Context Reasoning Benchmark
评估的是长上下文的召回率,非常实用,Qwen3.6 plus有69.7%,接近Claude三个模型的水平。

第二个是 AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis
评估的是全模态科学问题能力,我比较关注的是AI幻觉率。
以往的国模很容易在这个问题上翻车。这次GLM5.1和Qwen3.6 plus在这个指标上都很亮眼。

最后一个是 GDPval-AA Leaderboard | Artificial Analysis
评估真实世界Agent执行能力。在Coding Agent中,这个指标比总的Index更重要。
Gemini就是在这个测试中翻车,跟大家在Agent中感觉Google模型垃圾匹配上了。

可惜的是,这俩模型还是没有达到Sonnet4.6的水平。

网友解答:
--【壹】--:

gemini不是很弱吗,为什么在这里这么高。噢是因为虽然代码很弱但是世界知识强吗


--【贰】--:

这么理解就跟实际使用对照上了。只看分数1分跟没差一样……


--【叁】--:

上次看见这个榜是小米的模型,小米的ppt和实际去网站看似乎不一样。所有这个到底是不是野榜


--【肆】--:

Sonnet 4.6 和 opus 4.6 竟然只差一分


--【伍】--:

sonnet对任务的执行比opus要好。
opus有的时候会过度思考。

善于思考的模型不一定善于执行,善于执行的模型不一定善于思考。


--【陆】--:

index上差1分,实际差很多,因为差距会级联。

一个不严谨的计算:
opus4.6 53分,sonnet 52分。
按照一次prompt 15次LLM调用,最后总分比为
53 ^ 15 / 52 ^ 15 ≈ 1.33
可以提高30%的性能


--【柒】--:

这么看感觉米沫儿也不错吧,整体国模里面也互有胜负了说是


--【捌】--:

image2619×922 336 KB
那这个榜sonnet分比opus分还高又怎么说呢。

标签:人工智能