DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1)

2026-04-29 10:232阅读0评论SEO资源

内容介绍
相关推荐

问题描述：

来自知乎toyama nao佬
网站：LLM Benchmark Dashboard
有好多人看不懂，给个自己的结论吧：4.5opus水平，比GLM5.1略强，目前国模三巨头：DS4Pro>GLM5.1>Kimi2.6
image1482×602 124 KB
image1197×451 22 KB
附：其他未测完的国模
image1201×204 11.3 KB
附：这是扣分表，扣的越多表示模型在该项目表现越差。

Claude Opus在测试中未启用推理
Skip表述该测试跳过
Pending表示正在测试中
Failed表示子项无法编译、失败

等CodingPlan了

网友解答：

--【壹】--：

是优于 GLM 5.1 ，弱于 sonnet 4.5

--【贰】--：

看这个结果的话，是介于sonnet 4.5和GLM 5.1之间。

--【叁】--：

怎么FLASH比PRO扣分要少，这不是倒反天罡了嘛

--【肆】--：

这是扣分表，扣的越多表示模型在该项目表现越差。

--【伍】--：

哦，我直接看总分了，我看看细节，还有好多模型没测完

--【陆】--：

看评测,编程领域应该没有特化,表现不是特别突出.(当然我的要求可能高了)
不过ds,国模最好的老师,后面glm,minimax肯定会参考架构进行编程特化的.
而且现在看来评测,ds的flash版本的智商就很强,基本和kimi 2.6打平(甚至更稳定),同时成本只有十分之一.
flash都开源第一梯队了.pro版本的智商真要对着oag三家打了.

而且更好的是让ds解读了ds v4的报告, 国产卡真要好起来了.

真是让人充满信心的时刻啊!

--【柒】--：

连glm5.1都打不过，我是真不信啊，它可是deepseek啊

--【捌】--： Eeevan:

等CodingPlan

最尴尬的是他自己很有可能没有cp，然后第三方给你偷偷上量化或flash

--【玖】--：

说实话，有点失望这个表现，等了一年多，结果距离那些顶级闭源的差距有点大了

--【拾】--：

依旧国模一哥吗
哈基你这家伙
不过没有多模态还是差了点
以及别家审美…
不过同步开源又弥补了这一点
「不诱于誉，不恐于诽，率道而行，端然正己。」

--【拾壹】--：

你不要看总分啊，还没测完呢，你看子项，Pro比Flash强一倍啊

--【拾贰】--：

Game子项国模表现都不好，甚至只有几个模型能单独完成，其他都Failed了。，其他的子项sonnet还没测，其实我感觉是比sonnet 4.6强的。

--【拾叁】--：

牢这表啥意思啊？总扣分？是扣分越差劲吗？看不明白啊

--【拾肆】--：

我看了一下，差不多接近opus 4.5吧，毕竟你跳过了opus 4.5的这一项，去掉就接近了
和官方评分差不多倒是，介于 opus4.5 和 sonnet 4.6之间

--【拾伍】--：

主要是Nao的Sonnet4.6没有全测完，所以也不知道具体来说咋样。

--【拾陆】--：

国外顶级闭源模型，少说也是数倍的算力，还有多得多的资金/人力…我觉得现在这样已经不错了

--【拾柒】--：

据说其实这个是原定2月发，但是国产显卡适配拖了2个月

--【拾捌】--：

flash有一项直接挂了。最后计算的时候没算扣分好像。

--【拾玖】--：

好像跟arena的跑分对上了? 那我先改下,等待其他评测榜单出现