Artificial Analysis有GLM5.1和Qwen3.6 plus的数据了

2026-04-11 10:300阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

AI Model & API Providers Analysis | Artificial Analysis
非常不错,分别排名第5第6。
以前国模刷分都刷不到点子上,这次几个关键的指标都还不错。

一个是 Long Context Reasoning Benchmark
评估的是长上下文的召回率,非常实用,Qwen3.6 plus有69.7%,接近Claude三个模型的水平。

第二个是 AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis
评估的是全模态科学问题能力,我比较关注的是AI幻觉率。
以往的国模很容易在这个问题上翻车。这次GLM5.1和Qwen3.6 plus在这个指标上都很亮眼。

最后一个是 GDPval-AA Leaderboard | Artificial Analysis
评估真实世界Agent执行能力。在Coding Agent中,这个指标比总的Index更重要。
Gemini就是在这个测试中翻车,跟大家在Agent中感觉Google模型垃圾匹配上了。

可惜的是,这俩模型还是没有达到Sonnet4.6的水平。

网友解答:
--【壹】--:

gemini不是很弱吗,为什么在这里这么高。噢是因为虽然代码很弱但是世界知识强吗


--【贰】--:

这么理解就跟实际使用对照上了。只看分数1分跟没差一样……


--【叁】--:

上次看见这个榜是小米的模型,小米的ppt和实际去网站看似乎不一样。所有这个到底是不是野榜


--【肆】--:

Sonnet 4.6 和 opus 4.6 竟然只差一分


--【伍】--:

sonnet对任务的执行比opus要好。
opus有的时候会过度思考。

善于思考的模型不一定善于执行,善于执行的模型不一定善于思考。

阅读全文
标签:人工智能
问题描述:

AI Model & API Providers Analysis | Artificial Analysis
非常不错,分别排名第5第6。
以前国模刷分都刷不到点子上,这次几个关键的指标都还不错。

一个是 Long Context Reasoning Benchmark
评估的是长上下文的召回率,非常实用,Qwen3.6 plus有69.7%,接近Claude三个模型的水平。

第二个是 AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis
评估的是全模态科学问题能力,我比较关注的是AI幻觉率。
以往的国模很容易在这个问题上翻车。这次GLM5.1和Qwen3.6 plus在这个指标上都很亮眼。

最后一个是 GDPval-AA Leaderboard | Artificial Analysis
评估真实世界Agent执行能力。在Coding Agent中,这个指标比总的Index更重要。
Gemini就是在这个测试中翻车,跟大家在Agent中感觉Google模型垃圾匹配上了。

可惜的是,这俩模型还是没有达到Sonnet4.6的水平。

网友解答:
--【壹】--:

gemini不是很弱吗,为什么在这里这么高。噢是因为虽然代码很弱但是世界知识强吗


--【贰】--:

这么理解就跟实际使用对照上了。只看分数1分跟没差一样……


--【叁】--:

上次看见这个榜是小米的模型,小米的ppt和实际去网站看似乎不一样。所有这个到底是不是野榜


--【肆】--:

Sonnet 4.6 和 opus 4.6 竟然只差一分


--【伍】--:

sonnet对任务的执行比opus要好。
opus有的时候会过度思考。

善于思考的模型不一定善于执行,善于执行的模型不一定善于思考。

阅读全文
标签:人工智能