DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1)

2026-04-29 10:231阅读0评论SEO资源

内容介绍
相关推荐

问题描述：

来自知乎toyama nao佬
网站：LLM Benchmark Dashboard
有好多人看不懂，给个自己的结论吧：4.5opus水平，比GLM5.1略强，目前国模三巨头：DS4Pro>GLM5.1>Kimi2.6
image1482×602 124 KB
image1197×451 22 KB
附：其他未测完的国模
image1201×204 11.3 KB
附：这是扣分表，扣的越多表示模型在该项目表现越差。

Claude Opus在测试中未启用推理
Skip表述该测试跳过
Pending表示正在测试中
Failed表示子项无法编译、失败

等CodingPlan了

网友解答：

--【壹】--：

是优于 GLM 5.1 ，弱于 sonnet 4.5

--【贰】--：

看这个结果的话，是介于sonnet 4.5和GLM 5.1之间。

--【叁】--：

怎么FLASH比PRO扣分要少，这不是倒反天罡了嘛

--【肆】--：

这是扣分表，扣的越多表示模型在该项目表现越差。

阅读全文