DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1)
- 内容介绍
- 相关推荐
来自知乎toyama nao佬
网站:LLM Benchmark Dashboard
有好多人看不懂,给个自己的结论吧:4.5opus水平,比GLM5.1略强,目前国模三巨头:DS4Pro>GLM5.1>Kimi2.6
image1482×602 124 KB
image1197×451 22 KB
附:其他未测完的国模
image1201×204 11.3 KB
附:这是扣分表,扣的越多表示模型在该项目表现越差。
Claude Opus在测试中未启用推理
Skip表述该测试跳过
Pending表示正在测试中
Failed表示子项无法编译、失败
等CodingPlan了
网友解答:--【壹】--:
是优于 GLM 5.1 ,弱于 sonnet 4.5
--【贰】--:
看这个结果的话,是介于sonnet 4.5和GLM 5.1之间。
--【叁】--:
怎么FLASH比PRO扣分要少,这不是倒反天罡了嘛
--【肆】--:
这是扣分表,扣的越多表示模型在该项目表现越差。
--【伍】--:
哦,我直接看总分了,我看看细节,还有好多模型没测完
--【陆】--:
看评测,编程领域应该没有特化,表现不是特别突出.(当然我的要求可能高了)
不过ds,国模最好的老师,后面glm,minimax肯定会参考架构进行编程特化的.
而且现在看来评测,ds的flash版本的智商就很强,基本和kimi 2.6打平(甚至更稳定),同时成本只有十分之一.
flash都开源第一梯队了.pro版本的智商真要对着oag三家打了.
而且更好的是让ds解读了ds v4的报告, 国产卡真要好起来了.
真是让人充满信心的时刻啊!
--【柒】--:
连glm5.1都打不过,我是真不信啊,它可是deepseek啊
--【捌】--: Eeevan:
等CodingPlan
最尴尬的是他自己很有可能没有cp,然后第三方给你偷偷上量化或flash
--【玖】--:
说实话,有点失望这个表现,等了一年多,结果距离那些顶级闭源的差距有点大了
--【拾】--:
依旧国模一哥吗
哈基 你这家伙
不过没有多模态还是差了点
以及别家审美…
不过同步开源又弥补了这一点
「不诱于誉,不恐于诽,率道而行,端然正己。」
--【拾壹】--:
你不要看总分啊,还没测完呢,你看子项,Pro比Flash强一倍啊
--【拾贰】--:
Game子项国模表现都不好,甚至只有几个模型能单独完成,其他都Failed了。,其他的子项sonnet还没测,其实我感觉是比sonnet 4.6强的。
--【拾叁】--:
牢 这表啥意思啊?总扣分?是扣分越差劲吗?看不明白啊
--【拾肆】--:
我看了一下,差不多接近opus 4.5吧,毕竟你跳过了opus 4.5的这一项,去掉就接近了
和官方评分差不多倒是,介于 opus4.5 和 sonnet 4.6之间
--【拾伍】--:
主要是Nao的Sonnet4.6没有全测完,所以也不知道具体来说咋样。
--【拾陆】--:
国外顶级闭源模型,少说也是数倍的算力,还有多得多的资金/人力…我觉得现在这样已经不错了
--【拾柒】--:
据说其实这个是原定2月发,但是国产显卡适配拖了2个月
--【拾捌】--:
flash有一项直接挂了。最后计算的时候没算扣分好像。
--【拾玖】--:
好像跟arena的跑分对上了? 那我先改下,等待其他评测榜单出现
来自知乎toyama nao佬
网站:LLM Benchmark Dashboard
有好多人看不懂,给个自己的结论吧:4.5opus水平,比GLM5.1略强,目前国模三巨头:DS4Pro>GLM5.1>Kimi2.6
image1482×602 124 KB
image1197×451 22 KB
附:其他未测完的国模
image1201×204 11.3 KB
附:这是扣分表,扣的越多表示模型在该项目表现越差。
Claude Opus在测试中未启用推理
Skip表述该测试跳过
Pending表示正在测试中
Failed表示子项无法编译、失败
等CodingPlan了
网友解答:--【壹】--:
是优于 GLM 5.1 ,弱于 sonnet 4.5
--【贰】--:
看这个结果的话,是介于sonnet 4.5和GLM 5.1之间。
--【叁】--:
怎么FLASH比PRO扣分要少,这不是倒反天罡了嘛
--【肆】--:
这是扣分表,扣的越多表示模型在该项目表现越差。
--【伍】--:
哦,我直接看总分了,我看看细节,还有好多模型没测完
--【陆】--:
看评测,编程领域应该没有特化,表现不是特别突出.(当然我的要求可能高了)
不过ds,国模最好的老师,后面glm,minimax肯定会参考架构进行编程特化的.
而且现在看来评测,ds的flash版本的智商就很强,基本和kimi 2.6打平(甚至更稳定),同时成本只有十分之一.
flash都开源第一梯队了.pro版本的智商真要对着oag三家打了.
而且更好的是让ds解读了ds v4的报告, 国产卡真要好起来了.
真是让人充满信心的时刻啊!
--【柒】--:
连glm5.1都打不过,我是真不信啊,它可是deepseek啊
--【捌】--: Eeevan:
等CodingPlan
最尴尬的是他自己很有可能没有cp,然后第三方给你偷偷上量化或flash
--【玖】--:
说实话,有点失望这个表现,等了一年多,结果距离那些顶级闭源的差距有点大了
--【拾】--:
依旧国模一哥吗
哈基 你这家伙
不过没有多模态还是差了点
以及别家审美…
不过同步开源又弥补了这一点
「不诱于誉,不恐于诽,率道而行,端然正己。」
--【拾壹】--:
你不要看总分啊,还没测完呢,你看子项,Pro比Flash强一倍啊
--【拾贰】--:
Game子项国模表现都不好,甚至只有几个模型能单独完成,其他都Failed了。,其他的子项sonnet还没测,其实我感觉是比sonnet 4.6强的。
--【拾叁】--:
牢 这表啥意思啊?总扣分?是扣分越差劲吗?看不明白啊
--【拾肆】--:
我看了一下,差不多接近opus 4.5吧,毕竟你跳过了opus 4.5的这一项,去掉就接近了
和官方评分差不多倒是,介于 opus4.5 和 sonnet 4.6之间
--【拾伍】--:
主要是Nao的Sonnet4.6没有全测完,所以也不知道具体来说咋样。
--【拾陆】--:
国外顶级闭源模型,少说也是数倍的算力,还有多得多的资金/人力…我觉得现在这样已经不错了
--【拾柒】--:
据说其实这个是原定2月发,但是国产显卡适配拖了2个月
--【拾捌】--:
flash有一项直接挂了。最后计算的时候没算扣分好像。
--【拾玖】--:
好像跟arena的跑分对上了? 那我先改下,等待其他评测榜单出现

