Artificial Analysis有GLM5.1和Qwen3.6 plus的数据了

2026-04-11 10:300阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

AI Model & API Providers Analysis | Artificial Analysis
非常不错，分别排名第5第6。
以前国模刷分都刷不到点子上，这次几个关键的指标都还不错。

一个是 Long Context Reasoning Benchmark
评估的是长上下文的召回率，非常实用，Qwen3.6 plus有69.7%，接近Claude三个模型的水平。

第二个是 AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis
评估的是全模态科学问题能力，我比较关注的是AI幻觉率。
以往的国模很容易在这个问题上翻车。这次GLM5.1和Qwen3.6 plus在这个指标上都很亮眼。

最后一个是 GDPval-AA Leaderboard | Artificial Analysis
评估真实世界Agent执行能力。在Coding Agent中，这个指标比总的Index更重要。
Gemini就是在这个测试中翻车，跟大家在Agent中感觉Google模型垃圾匹配上了。

可惜的是，这俩模型还是没有达到Sonnet4.6的水平。

网友解答：

--【壹】--：

gemini不是很弱吗，为什么在这里这么高。噢是因为虽然代码很弱但是世界知识强吗

--【贰】--：

这么理解就跟实际使用对照上了。只看分数1分跟没差一样……

--【叁】--：

上次看见这个榜是小米的模型，小米的ppt和实际去网站看似乎不一样。所有这个到底是不是野榜

--【肆】--：

Sonnet 4.6 和 opus 4.6 竟然只差一分

--【伍】--：

sonnet对任务的执行比opus要好。
opus有的时候会过度思考。

善于思考的模型不一定善于执行，善于执行的模型不一定善于思考。

阅读全文

标签：人工智能