DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1)

2026-04-29 10:231阅读0评论SEO资源
  • 内容介绍
  • 相关推荐
问题描述:

来自知乎toyama nao佬
网站:LLM Benchmark Dashboard
有好多人看不懂,给个自己的结论吧:4.5opus水平,比GLM5.1略强,目前国模三巨头:DS4Pro>GLM5.1>Kimi2.6
image1482×602 124 KB
image1197×451 22 KB
附:其他未测完的国模
image1201×204 11.3 KB
附:这是扣分表,扣的越多表示模型在该项目表现越差。

Claude Opus在测试中未启用推理
Skip表述该测试跳过
Pending表示正在测试中
Failed表示子项无法编译、失败

等CodingPlan了

网友解答:
--【壹】--:

是优于 GLM 5.1 ,弱于 sonnet 4.5


--【贰】--:

看这个结果的话,是介于sonnet 4.5和GLM 5.1之间。


--【叁】--:

怎么FLASH比PRO扣分要少,这不是倒反天罡了嘛


--【肆】--:

这是扣分表,扣的越多表示模型在该项目表现越差。

阅读全文
问题描述:

来自知乎toyama nao佬
网站:LLM Benchmark Dashboard
有好多人看不懂,给个自己的结论吧:4.5opus水平,比GLM5.1略强,目前国模三巨头:DS4Pro>GLM5.1>Kimi2.6
image1482×602 124 KB
image1197×451 22 KB
附:其他未测完的国模
image1201×204 11.3 KB
附:这是扣分表,扣的越多表示模型在该项目表现越差。

Claude Opus在测试中未启用推理
Skip表述该测试跳过
Pending表示正在测试中
Failed表示子项无法编译、失败

等CodingPlan了

网友解答:
--【壹】--:

是优于 GLM 5.1 ,弱于 sonnet 4.5


--【贰】--:

看这个结果的话,是介于sonnet 4.5和GLM 5.1之间。


--【叁】--:

怎么FLASH比PRO扣分要少,这不是倒反天罡了嘛


--【肆】--:

这是扣分表,扣的越多表示模型在该项目表现越差。

阅读全文