DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1)
- 内容介绍
- 相关推荐
来自知乎toyama nao佬
网站:LLM Benchmark Dashboard
有好多人看不懂,给个自己的结论吧:4.5opus水平,比GLM5.1略强,目前国模三巨头:DS4Pro>GLM5.1>Kimi2.6
image1482×602 124 KB
image1197×451 22 KB
附:其他未测完的国模
image1201×204 11.3 KB
附:这是扣分表,扣的越多表示模型在该项目表现越差。
Claude Opus在测试中未启用推理
Skip表述该测试跳过
Pending表示正在测试中
Failed表示子项无法编译、失败
等CodingPlan了
网友解答:--【壹】--:
是优于 GLM 5.1 ,弱于 sonnet 4.5
--【贰】--:
看这个结果的话,是介于sonnet 4.5和GLM 5.1之间。
--【叁】--:
怎么FLASH比PRO扣分要少,这不是倒反天罡了嘛
--【肆】--:
这是扣分表,扣的越多表示模型在该项目表现越差。
来自知乎toyama nao佬
网站:LLM Benchmark Dashboard
有好多人看不懂,给个自己的结论吧:4.5opus水平,比GLM5.1略强,目前国模三巨头:DS4Pro>GLM5.1>Kimi2.6
image1482×602 124 KB
image1197×451 22 KB
附:其他未测完的国模
image1201×204 11.3 KB
附:这是扣分表,扣的越多表示模型在该项目表现越差。
Claude Opus在测试中未启用推理
Skip表述该测试跳过
Pending表示正在测试中
Failed表示子项无法编译、失败
等CodingPlan了
网友解答:--【壹】--:
是优于 GLM 5.1 ,弱于 sonnet 4.5
--【贰】--:
看这个结果的话,是介于sonnet 4.5和GLM 5.1之间。
--【叁】--:
怎么FLASH比PRO扣分要少,这不是倒反天罡了嘛
--【肆】--:
这是扣分表,扣的越多表示模型在该项目表现越差。

