Deepseek v4 Pro的编程评测
- 内容介绍
- 文章标签
- 相关推荐
Nao佬的Deepseek编程评测出来了,在使用时一定一定一定要开Max
从 DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1) - 前沿快讯 - LINUX DO继续
结论:V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上,max 档位基本都能胜过前冠军GLM-5.1,大幅缩进了与Opus 的差距。而high 档位也都能跑完4 个工程。
全文:
短的结论:漫长等待的超值回报
基本情况:
DeepSeek 确实是最早备战编程的厂家之一了,早在V2 时代就发过单独的V2 Coder 模型,直到V2.5 才合入主线。此后DeepSeek 的编程基本功一直在线,DeepSeek V3.2 在之前的编程V2 榜单上也一直是代码一遍过率最高的国模。只不过Agent 时代全面到来之后,V3.2 在越来越复杂的Agent 工况下,表现没那么突出了。
DeepSeek 原本无意竞争,但树欲静而风不止,在无尽的传言与漫长的等待之后,新一代V4 正式登场。
新的V4 有Flash 与 Pro 两个模型,分别支持多档推理。Flash 与主流的中小尺寸模型大小相近,高速,低价。而Pro 则以万亿身躯,主打智力上限。
V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上,max 档位基本都能胜过前冠军GLM-5.1,大幅缩进了与Opus 的差距。而high 档位也都能跑完4 个工程。
image1482×602 124 KB
附:这是扣分表,扣的越多表示模型在该项目表现越差。
测试方法参见:大模型编程应用测试-V3榜单
细分来看,V4 Pro 在编程上有几个鲜明特点。
其一,广泛的编程知识。4 个工程,尤其C 和 F 非常需要各种细分领域知识,如果知识不足,就会出现很简单的Bug 也改不了的情况,比如没有正确配置storyboard 导致macos 的程序无法正常显示窗口等。V4 的知识量基本涵盖了这类非热门领域,并且面对各种边缘Case,V4 Pro 可以不靠猜,直接锁定Bug根因,这一点和GPT、Opus 等很像。比如E 项目中因为Canvas 配置错误导致渲染失败,V4 Pro 可以马上锁定问题,而之前测试的某一款国模在相同问题上耗费8 轮反复定位,也徒劳无获。开发完成后的自测阶段,V4 Pro 掌握的自测手段也很多,甚至会使用一些冷门方法进行代码正确性检查。V4 Flash 对于大面上的知识,掌握程度并不比Pro 少太多。Lite 只是弱在掌握的边缘知识少,遇到不直观的Bug 容易束手无策。
其二,长上下文的低幻觉。由于工程测试采取的是逐轮叠加功能的考察模式,因此在测试的后几轮,再提出全局性修改时,模型往往就需要重新阅读整个工程,找到所有关联细节。这对于GPT/Opus 等模型不是难事,但对于一众国产模型确是相当有门槛。V4 Pro、Flash 在high、max档位上,基本都能保持相当低的幻觉水平,长代码后续流程的Bug 率依然保持较低水准。
其三,偶发性的注意力失焦。遇到工程体量大,要求多的情况,V4 Pro 在high 档位下,受限于思考预算分配,会有概率随机丢弃一些实现细节,但好在经过提醒,加自测一到两轮后,问题基本都能修复,这对智力足够的V4 来说不是难事。而在max 档位下,由于思考预算充足,这类badcase 出现概率就明显下降,复杂功能一遍过的概率大幅提升。不过注意力问题并没有根除,即便在max 档位也会有小概率出现。相比Codex/Opus 这类一线模型,他们基本不犯这类小错,一般是某些小细节考虑不周导致扣分。而且V4 Pro 在Bug 定位的方法论训练上还不够充分,遇到生僻的Bug 最初也没有正确定位思路,一般要人工提示加log 跟踪。
其四,不讲究的架构与UI。V4 基本保留了之前DeepSeek V3 在各类架构设计上的思路,不讲究,不够精致,但也不糊弄,该有的分层,解耦,都会有。做不到Opus 那样一看就出自大手的规范性架构。UI 方面同样如此,直出效果不算优秀,偶尔会有些精细表达,但多数时候就是基本能用的程度。甚至high 档位偶尔下限更低,考虑不周全。如果实际开发配合设计稿,那么问题不大。但如果是纯vibe coding,那实现效果就需要反复抽卡。
总体上看,V4 Pro 的max 和 high 档位,都有着相当高的可用性。在一轮开发中,会较为严格的遵循先充分思考,再一次性写对代码,最后自测收尾的流程。没有出现边写代码边思考,或者自测到一半去改设计的情况。这种严格的编码纪律帮助V4 Pro 规避了大量可能流出的低级错误。
并且max 的消耗没有比high 高太多,平均输出基本持平,但工具调用轮数,工程文件阅读深度会明显高于high 档,至多会多出60%。这意味着使用max 档位,经济成本不会高太多,但完成任务的耗时会大幅提高。
V4 Flash 在编程上整体情况没有差V4 Pro high 档位多少,在中低难度的oneshot 任务上,二者表现几乎一致。在处理较复杂功能时,V4 Pro 一遍过的概率更高,而Lite 总会犯一些小错。并且Flash 的随机性更高,上下限差异大,相同提示词,V4 Flash 可能在完全不可用且几遍也改不好,到一遍过之间随机。不过小尺寸模型大都有此问题,并非V4 Flash 特有。V4 Flash 在Token 消耗上,显著高于V4 Pro,不过综合其单价和TPS,可用性和任务适应性也非常可观。
由于DeepSeek V4 模型整体测试规模很大,因此逻辑部分另外行文,望海涵和耐心等待。
原文链接:https://mp.weixin.qq.com/s/DwleBgjy3EiS7zWqlrsTEw
网友解答:--【壹】--:
挺期待的,现在的token属实是太贵了,用不起了都
--【贰】--:
终于看到max的评价了,我就说deepseek官方肯定是不会夸大的,虽然贵,但是有这个水平真的很不错了,后续还降价
--【叁】--:
没有coding plan的话哪怕只是flash我也用不起啊
--【肆】--:
感觉站内一小部分人测下来拉跨集中在几个问题,一个是用官方的web来测,一个是不开max,再就是只看前端能力,实际上v4应该不错的,期待降价
--【伍】--:
期待Coding Plan 纯Token 实属用不起
--【陆】--:
即使打5折,性能不行的话,比如一个bug,5.5可能5分钟就修好了。v4反复改半小时也改不好,时间也浪费了,token也浪费了。。so还是放弃期待吧。到那时gpt 6可能也来了,5.5可能就白菜价啦。
--【柒】--:
听说,v4是全面用昇腾训练了吗,抛弃cuda了?这是真的吗
--【捌】--:
这价格,主要是没有编程套餐也是用不起的程度了。
--【玖】--:
v4 flash 模型的参数量跟 minimax 大模型参数量差不多。。。
minimax 到底多能吹,可见一斑。。。
之前大家用 minimax 是因为量大管饱,现在换成 v4 flash 应该也没问题吧
--【拾】--:
ds v4 价格也没啥优势,还是用codex+gpt5.4 5.5吧,或者cc+opus4.6
--【拾壹】--:
不知道下半年大幅降价能降多少,如果打五折呢,会有优势的吧
但是下半年别家新模型又出来了。。。
--【拾贰】--:
其实大概是sonnet4.6~opus4.5,因为nao佬的sonnet4.6还没测完,榜单没有
--【拾叁】--:
一直相信ds的品行,根本不去玩资本那一套营销和刷榜,测出来什么样就怎么说,官方测试报告写的也很真诚,不诱于誉,不恐于诽,率道而行,端然正己。
--【拾肆】--:
cc中加入的思考参数有什么用?我的意思是max和high参数也会让模型思考时间变化吗
--【拾伍】--:
深度搜索加油,期待不用A÷使用国模的那一天,并非贬低,差距还是有的。
--【拾陆】--:
比sonnet 4.5略微强些的水平吗?
--【拾柒】--:
都不如glm 5.1的编码能力,使用下来体验完全不如claude soonet 4.6的水平
--【拾捌】--:
确实,鲸鱼是国模里最务实的,Minimax是最能吹的,Kimi和GLM也总是夸大
--【拾玖】--:
关键是尽管参数量接近,但minimax的定价是v4 flash的4倍,坑麻了
Nao佬的Deepseek编程评测出来了,在使用时一定一定一定要开Max
从 DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1) - 前沿快讯 - LINUX DO继续
结论:V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上,max 档位基本都能胜过前冠军GLM-5.1,大幅缩进了与Opus 的差距。而high 档位也都能跑完4 个工程。
全文:
短的结论:漫长等待的超值回报
基本情况:
DeepSeek 确实是最早备战编程的厂家之一了,早在V2 时代就发过单独的V2 Coder 模型,直到V2.5 才合入主线。此后DeepSeek 的编程基本功一直在线,DeepSeek V3.2 在之前的编程V2 榜单上也一直是代码一遍过率最高的国模。只不过Agent 时代全面到来之后,V3.2 在越来越复杂的Agent 工况下,表现没那么突出了。
DeepSeek 原本无意竞争,但树欲静而风不止,在无尽的传言与漫长的等待之后,新一代V4 正式登场。
新的V4 有Flash 与 Pro 两个模型,分别支持多档推理。Flash 与主流的中小尺寸模型大小相近,高速,低价。而Pro 则以万亿身躯,主打智力上限。
V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上,max 档位基本都能胜过前冠军GLM-5.1,大幅缩进了与Opus 的差距。而high 档位也都能跑完4 个工程。
image1482×602 124 KB
附:这是扣分表,扣的越多表示模型在该项目表现越差。
测试方法参见:大模型编程应用测试-V3榜单
细分来看,V4 Pro 在编程上有几个鲜明特点。
其一,广泛的编程知识。4 个工程,尤其C 和 F 非常需要各种细分领域知识,如果知识不足,就会出现很简单的Bug 也改不了的情况,比如没有正确配置storyboard 导致macos 的程序无法正常显示窗口等。V4 的知识量基本涵盖了这类非热门领域,并且面对各种边缘Case,V4 Pro 可以不靠猜,直接锁定Bug根因,这一点和GPT、Opus 等很像。比如E 项目中因为Canvas 配置错误导致渲染失败,V4 Pro 可以马上锁定问题,而之前测试的某一款国模在相同问题上耗费8 轮反复定位,也徒劳无获。开发完成后的自测阶段,V4 Pro 掌握的自测手段也很多,甚至会使用一些冷门方法进行代码正确性检查。V4 Flash 对于大面上的知识,掌握程度并不比Pro 少太多。Lite 只是弱在掌握的边缘知识少,遇到不直观的Bug 容易束手无策。
其二,长上下文的低幻觉。由于工程测试采取的是逐轮叠加功能的考察模式,因此在测试的后几轮,再提出全局性修改时,模型往往就需要重新阅读整个工程,找到所有关联细节。这对于GPT/Opus 等模型不是难事,但对于一众国产模型确是相当有门槛。V4 Pro、Flash 在high、max档位上,基本都能保持相当低的幻觉水平,长代码后续流程的Bug 率依然保持较低水准。
其三,偶发性的注意力失焦。遇到工程体量大,要求多的情况,V4 Pro 在high 档位下,受限于思考预算分配,会有概率随机丢弃一些实现细节,但好在经过提醒,加自测一到两轮后,问题基本都能修复,这对智力足够的V4 来说不是难事。而在max 档位下,由于思考预算充足,这类badcase 出现概率就明显下降,复杂功能一遍过的概率大幅提升。不过注意力问题并没有根除,即便在max 档位也会有小概率出现。相比Codex/Opus 这类一线模型,他们基本不犯这类小错,一般是某些小细节考虑不周导致扣分。而且V4 Pro 在Bug 定位的方法论训练上还不够充分,遇到生僻的Bug 最初也没有正确定位思路,一般要人工提示加log 跟踪。
其四,不讲究的架构与UI。V4 基本保留了之前DeepSeek V3 在各类架构设计上的思路,不讲究,不够精致,但也不糊弄,该有的分层,解耦,都会有。做不到Opus 那样一看就出自大手的规范性架构。UI 方面同样如此,直出效果不算优秀,偶尔会有些精细表达,但多数时候就是基本能用的程度。甚至high 档位偶尔下限更低,考虑不周全。如果实际开发配合设计稿,那么问题不大。但如果是纯vibe coding,那实现效果就需要反复抽卡。
总体上看,V4 Pro 的max 和 high 档位,都有着相当高的可用性。在一轮开发中,会较为严格的遵循先充分思考,再一次性写对代码,最后自测收尾的流程。没有出现边写代码边思考,或者自测到一半去改设计的情况。这种严格的编码纪律帮助V4 Pro 规避了大量可能流出的低级错误。
并且max 的消耗没有比high 高太多,平均输出基本持平,但工具调用轮数,工程文件阅读深度会明显高于high 档,至多会多出60%。这意味着使用max 档位,经济成本不会高太多,但完成任务的耗时会大幅提高。
V4 Flash 在编程上整体情况没有差V4 Pro high 档位多少,在中低难度的oneshot 任务上,二者表现几乎一致。在处理较复杂功能时,V4 Pro 一遍过的概率更高,而Lite 总会犯一些小错。并且Flash 的随机性更高,上下限差异大,相同提示词,V4 Flash 可能在完全不可用且几遍也改不好,到一遍过之间随机。不过小尺寸模型大都有此问题,并非V4 Flash 特有。V4 Flash 在Token 消耗上,显著高于V4 Pro,不过综合其单价和TPS,可用性和任务适应性也非常可观。
由于DeepSeek V4 模型整体测试规模很大,因此逻辑部分另外行文,望海涵和耐心等待。
原文链接:https://mp.weixin.qq.com/s/DwleBgjy3EiS7zWqlrsTEw
网友解答:--【壹】--:
挺期待的,现在的token属实是太贵了,用不起了都
--【贰】--:
终于看到max的评价了,我就说deepseek官方肯定是不会夸大的,虽然贵,但是有这个水平真的很不错了,后续还降价
--【叁】--:
没有coding plan的话哪怕只是flash我也用不起啊
--【肆】--:
感觉站内一小部分人测下来拉跨集中在几个问题,一个是用官方的web来测,一个是不开max,再就是只看前端能力,实际上v4应该不错的,期待降价
--【伍】--:
期待Coding Plan 纯Token 实属用不起
--【陆】--:
即使打5折,性能不行的话,比如一个bug,5.5可能5分钟就修好了。v4反复改半小时也改不好,时间也浪费了,token也浪费了。。so还是放弃期待吧。到那时gpt 6可能也来了,5.5可能就白菜价啦。
--【柒】--:
听说,v4是全面用昇腾训练了吗,抛弃cuda了?这是真的吗
--【捌】--:
这价格,主要是没有编程套餐也是用不起的程度了。
--【玖】--:
v4 flash 模型的参数量跟 minimax 大模型参数量差不多。。。
minimax 到底多能吹,可见一斑。。。
之前大家用 minimax 是因为量大管饱,现在换成 v4 flash 应该也没问题吧
--【拾】--:
ds v4 价格也没啥优势,还是用codex+gpt5.4 5.5吧,或者cc+opus4.6
--【拾壹】--:
不知道下半年大幅降价能降多少,如果打五折呢,会有优势的吧
但是下半年别家新模型又出来了。。。
--【拾贰】--:
其实大概是sonnet4.6~opus4.5,因为nao佬的sonnet4.6还没测完,榜单没有
--【拾叁】--:
一直相信ds的品行,根本不去玩资本那一套营销和刷榜,测出来什么样就怎么说,官方测试报告写的也很真诚,不诱于誉,不恐于诽,率道而行,端然正己。
--【拾肆】--:
cc中加入的思考参数有什么用?我的意思是max和high参数也会让模型思考时间变化吗
--【拾伍】--:
深度搜索加油,期待不用A÷使用国模的那一天,并非贬低,差距还是有的。
--【拾陆】--:
比sonnet 4.5略微强些的水平吗?
--【拾柒】--:
都不如glm 5.1的编码能力,使用下来体验完全不如claude soonet 4.6的水平
--【拾捌】--:
确实,鲸鱼是国模里最务实的,Minimax是最能吹的,Kimi和GLM也总是夸大
--【拾玖】--:
关键是尽管参数量接近,但minimax的定价是v4 flash的4倍,坑麻了

