DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1)

2026-04-29 10:232阅读0评论SEO资源
  • 内容介绍
  • 相关推荐
问题描述:

来自知乎toyama nao佬
网站:LLM Benchmark Dashboard
有好多人看不懂,给个自己的结论吧:4.5opus水平,比GLM5.1略强,目前国模三巨头:DS4Pro>GLM5.1>Kimi2.6
image1482×602 124 KB
image1197×451 22 KB
附:其他未测完的国模
image1201×204 11.3 KB
附:这是扣分表,扣的越多表示模型在该项目表现越差。

Claude Opus在测试中未启用推理
Skip表述该测试跳过
Pending表示正在测试中
Failed表示子项无法编译、失败

等CodingPlan了

网友解答:
--【壹】--:

是优于 GLM 5.1 ,弱于 sonnet 4.5


--【贰】--:

看这个结果的话,是介于sonnet 4.5和GLM 5.1之间。


--【叁】--:

怎么FLASH比PRO扣分要少,这不是倒反天罡了嘛


--【肆】--:

这是扣分表,扣的越多表示模型在该项目表现越差。


--【伍】--:

哦,我直接看总分了,我看看细节,还有好多模型没测完


--【陆】--:

看评测,编程领域应该没有特化,表现不是特别突出.(当然我的要求可能高了)
不过ds,国模最好的老师,后面glm,minimax肯定会参考架构进行编程特化的.
而且现在看来评测,ds的flash版本的智商就很强,基本和kimi 2.6打平(甚至更稳定),同时成本只有十分之一.
flash都开源第一梯队了.pro版本的智商真要对着oag三家打了.

而且更好的是让ds解读了ds v4的报告, 国产卡真要好起来了.

真是让人充满信心的时刻啊!


--【柒】--:

连glm5.1都打不过,我是真不信啊,它可是deepseek啊


--【捌】--: Eeevan:

等CodingPlan

最尴尬的是他自己很有可能没有cp,然后第三方给你偷偷上量化或flash


--【玖】--:

说实话,有点失望这个表现,等了一年多,结果距离那些顶级闭源的差距有点大了


--【拾】--:

依旧国模一哥吗
哈基 你这家伙
不过没有多模态还是差了点
以及别家审美…
不过同步开源又弥补了这一点
「不诱于誉,不恐于诽,率道而行,端然正己。」


--【拾壹】--:

你不要看总分啊,还没测完呢,你看子项,Pro比Flash强一倍啊


--【拾贰】--:

Game子项国模表现都不好,甚至只有几个模型能单独完成,其他都Failed了。,其他的子项sonnet还没测,其实我感觉是比sonnet 4.6强的。


--【拾叁】--:

牢 这表啥意思啊?总扣分?是扣分越差劲吗?看不明白啊


--【拾肆】--:

我看了一下,差不多接近opus 4.5吧,毕竟你跳过了opus 4.5的这一项,去掉就接近了
和官方评分差不多倒是,介于 opus4.5 和 sonnet 4.6之间


--【拾伍】--:

主要是Nao的Sonnet4.6没有全测完,所以也不知道具体来说咋样。


--【拾陆】--:

国外顶级闭源模型,少说也是数倍的算力,还有多得多的资金/人力…我觉得现在这样已经不错了


--【拾柒】--:

据说其实这个是原定2月发,但是国产显卡适配拖了2个月


--【拾捌】--:

flash有一项直接挂了。最后计算的时候没算扣分好像。


--【拾玖】--:

好像跟arena的跑分对上了? 那我先改下,等待其他评测榜单出现

问题描述:

来自知乎toyama nao佬
网站:LLM Benchmark Dashboard
有好多人看不懂,给个自己的结论吧:4.5opus水平,比GLM5.1略强,目前国模三巨头:DS4Pro>GLM5.1>Kimi2.6
image1482×602 124 KB
image1197×451 22 KB
附:其他未测完的国模
image1201×204 11.3 KB
附:这是扣分表,扣的越多表示模型在该项目表现越差。

Claude Opus在测试中未启用推理
Skip表述该测试跳过
Pending表示正在测试中
Failed表示子项无法编译、失败

等CodingPlan了

网友解答:
--【壹】--:

是优于 GLM 5.1 ,弱于 sonnet 4.5


--【贰】--:

看这个结果的话,是介于sonnet 4.5和GLM 5.1之间。


--【叁】--:

怎么FLASH比PRO扣分要少,这不是倒反天罡了嘛


--【肆】--:

这是扣分表,扣的越多表示模型在该项目表现越差。


--【伍】--:

哦,我直接看总分了,我看看细节,还有好多模型没测完


--【陆】--:

看评测,编程领域应该没有特化,表现不是特别突出.(当然我的要求可能高了)
不过ds,国模最好的老师,后面glm,minimax肯定会参考架构进行编程特化的.
而且现在看来评测,ds的flash版本的智商就很强,基本和kimi 2.6打平(甚至更稳定),同时成本只有十分之一.
flash都开源第一梯队了.pro版本的智商真要对着oag三家打了.

而且更好的是让ds解读了ds v4的报告, 国产卡真要好起来了.

真是让人充满信心的时刻啊!


--【柒】--:

连glm5.1都打不过,我是真不信啊,它可是deepseek啊


--【捌】--: Eeevan:

等CodingPlan

最尴尬的是他自己很有可能没有cp,然后第三方给你偷偷上量化或flash


--【玖】--:

说实话,有点失望这个表现,等了一年多,结果距离那些顶级闭源的差距有点大了


--【拾】--:

依旧国模一哥吗
哈基 你这家伙
不过没有多模态还是差了点
以及别家审美…
不过同步开源又弥补了这一点
「不诱于誉,不恐于诽,率道而行,端然正己。」


--【拾壹】--:

你不要看总分啊,还没测完呢,你看子项,Pro比Flash强一倍啊


--【拾贰】--:

Game子项国模表现都不好,甚至只有几个模型能单独完成,其他都Failed了。,其他的子项sonnet还没测,其实我感觉是比sonnet 4.6强的。


--【拾叁】--:

牢 这表啥意思啊?总扣分?是扣分越差劲吗?看不明白啊


--【拾肆】--:

我看了一下,差不多接近opus 4.5吧,毕竟你跳过了opus 4.5的这一项,去掉就接近了
和官方评分差不多倒是,介于 opus4.5 和 sonnet 4.6之间


--【拾伍】--:

主要是Nao的Sonnet4.6没有全测完,所以也不知道具体来说咋样。


--【拾陆】--:

国外顶级闭源模型,少说也是数倍的算力,还有多得多的资金/人力…我觉得现在这样已经不错了


--【拾柒】--:

据说其实这个是原定2月发,但是国产显卡适配拖了2个月


--【拾捌】--:

flash有一项直接挂了。最后计算的时候没算扣分好像。


--【拾玖】--:

好像跟arena的跑分对上了? 那我先改下,等待其他评测榜单出现