Deepseek v4 Pro的编程评测

2026-04-29 09:542阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

Nao佬的Deepseek编程评测出来了,在使用时一定一定一定要开Max
从 DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1) - 前沿快讯 - LINUX DO继续
结论:V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上,max 档位基本都能胜过前冠军GLM-5.1,大幅缩进了与Opus 的差距。而high 档位也都能跑完4 个工程。
全文:

短的结论:漫长等待的超值回报

基本情况:

DeepSeek 确实是最早备战编程的厂家之一了,早在V2 时代就发过单独的V2 Coder 模型,直到V2.5 才合入主线。此后DeepSeek 的编程基本功一直在线,DeepSeek V3.2 在之前的编程V2 榜单上也一直是代码一遍过率最高的国模。只不过Agent 时代全面到来之后,V3.2 在越来越复杂的Agent 工况下,表现没那么突出了。

DeepSeek 原本无意竞争,但树欲静而风不止,在无尽的传言与漫长的等待之后,新一代V4 正式登场。

新的V4 有Flash 与 Pro 两个模型,分别支持多档推理。Flash 与主流的中小尺寸模型大小相近,高速,低价。而Pro 则以万亿身躯,主打智力上限。

V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上,max 档位基本都能胜过前冠军GLM-5.1,大幅缩进了与Opus 的差距。而high 档位也都能跑完4 个工程。

image1482×602 124 KB
附:这是扣分表,扣的越多表示模型在该项目表现越差。

测试方法参见:大模型编程应用测试-V3榜单

细分来看,V4 Pro 在编程上有几个鲜明特点。

其一,广泛的编程知识。4 个工程,尤其C 和 F 非常需要各种细分领域知识,如果知识不足,就会出现很简单的Bug 也改不了的情况,比如没有正确配置storyboard 导致macos 的程序无法正常显示窗口等。V4 的知识量基本涵盖了这类非热门领域,并且面对各种边缘Case,V4 Pro 可以不靠猜,直接锁定Bug根因,这一点和GPT、Opus 等很像。比如E 项目中因为Canvas 配置错误导致渲染失败,V4 Pro 可以马上锁定问题,而之前测试的某一款国模在相同问题上耗费8 轮反复定位,也徒劳无获。开发完成后的自测阶段,V4 Pro 掌握的自测手段也很多,甚至会使用一些冷门方法进行代码正确性检查。V4 Flash 对于大面上的知识,掌握程度并不比Pro 少太多。Lite 只是弱在掌握的边缘知识少,遇到不直观的Bug 容易束手无策。

其二,长上下文的低幻觉。由于工程测试采取的是逐轮叠加功能的考察模式,因此在测试的后几轮,再提出全局性修改时,模型往往就需要重新阅读整个工程,找到所有关联细节。这对于GPT/Opus 等模型不是难事,但对于一众国产模型确是相当有门槛。V4 Pro、Flash 在high、max档位上,基本都能保持相当低的幻觉水平,长代码后续流程的Bug 率依然保持较低水准。

其三,偶发性的注意力失焦。遇到工程体量大,要求多的情况,V4 Pro 在high 档位下,受限于思考预算分配,会有概率随机丢弃一些实现细节,但好在经过提醒,加自测一到两轮后,问题基本都能修复,这对智力足够的V4 来说不是难事。而在max 档位下,由于思考预算充足,这类badcase 出现概率就明显下降,复杂功能一遍过的概率大幅提升。不过注意力问题并没有根除,即便在max 档位也会有小概率出现。相比Codex/Opus 这类一线模型,他们基本不犯这类小错,一般是某些小细节考虑不周导致扣分。而且V4 Pro 在Bug 定位的方法论训练上还不够充分,遇到生僻的Bug 最初也没有正确定位思路,一般要人工提示加log 跟踪。

其四,不讲究的架构与UI。V4 基本保留了之前DeepSeek V3 在各类架构设计上的思路,不讲究,不够精致,但也不糊弄,该有的分层,解耦,都会有。做不到Opus 那样一看就出自大手的规范性架构。UI 方面同样如此,直出效果不算优秀,偶尔会有些精细表达,但多数时候就是基本能用的程度。甚至high 档位偶尔下限更低,考虑不周全。如果实际开发配合设计稿,那么问题不大。但如果是纯vibe coding,那实现效果就需要反复抽卡。

总体上看,V4 Pro 的max 和 high 档位,都有着相当高的可用性。在一轮开发中,会较为严格的遵循先充分思考,再一次性写对代码,最后自测收尾的流程。没有出现边写代码边思考,或者自测到一半去改设计的情况。这种严格的编码纪律帮助V4 Pro 规避了大量可能流出的低级错误。

并且max 的消耗没有比high 高太多,平均输出基本持平,但工具调用轮数,工程文件阅读深度会明显高于high 档,至多会多出60%。这意味着使用max 档位,经济成本不会高太多,但完成任务的耗时会大幅提高。

V4 Flash 在编程上整体情况没有差V4 Pro high 档位多少,在中低难度的oneshot 任务上,二者表现几乎一致。在处理较复杂功能时,V4 Pro 一遍过的概率更高,而Lite 总会犯一些小错。并且Flash 的随机性更高,上下限差异大,相同提示词,V4 Flash 可能在完全不可用且几遍也改不好,到一遍过之间随机。不过小尺寸模型大都有此问题,并非V4 Flash 特有。V4 Flash 在Token 消耗上,显著高于V4 Pro,不过综合其单价和TPS,可用性和任务适应性也非常可观。

由于DeepSeek V4 模型整体测试规模很大,因此逻辑部分另外行文,望海涵和耐心等待。

原文链接:https://mp.weixin.qq.com/s/DwleBgjy3EiS7zWqlrsTEw

网友解答:
--【壹】--:

挺期待的,现在的token属实是太贵了,用不起了都


--【贰】--:

终于看到max的评价了,我就说deepseek官方肯定是不会夸大的,虽然贵,但是有这个水平真的很不错了,后续还降价


--【叁】--:

没有coding plan的话哪怕只是flash我也用不起啊


--【肆】--:

感觉站内一小部分人测下来拉跨集中在几个问题,一个是用官方的web来测,一个是不开max,再就是只看前端能力,实际上v4应该不错的,期待降价


--【伍】--:

期待Coding Plan 纯Token 实属用不起


--【陆】--:

即使打5折,性能不行的话,比如一个bug,5.5可能5分钟就修好了。v4反复改半小时也改不好,时间也浪费了,token也浪费了。。so还是放弃期待吧。到那时gpt 6可能也来了,5.5可能就白菜价啦。


--【柒】--:

听说,v4是全面用昇腾训练了吗,抛弃cuda了?这是真的吗


--【捌】--:

这价格,主要是没有编程套餐也是用不起的程度了。


--【玖】--:

v4 flash 模型的参数量跟 minimax 大模型参数量差不多。。。
minimax 到底多能吹,可见一斑。。。
之前大家用 minimax 是因为量大管饱,现在换成 v4 flash 应该也没问题吧


--【拾】--:

ds v4 价格也没啥优势,还是用codex+gpt5.4 5.5吧,或者cc+opus4.6


--【拾壹】--:

不知道下半年大幅降价能降多少,如果打五折呢,会有优势的吧

但是下半年别家新模型又出来了。。。


--【拾贰】--:

其实大概是sonnet4.6~opus4.5,因为nao佬的sonnet4.6还没测完,榜单没有


--【拾叁】--:

一直相信ds的品行,根本不去玩资本那一套营销和刷榜,测出来什么样就怎么说,官方测试报告写的也很真诚,不诱于誉,不恐于诽,率道而行,端然正己。


--【拾肆】--:

cc中加入的思考参数有什么用?我的意思是max和high参数也会让模型思考时间变化吗


--【拾伍】--:

深度搜索加油,期待不用A÷使用国模的那一天,并非贬低,差距还是有的。


--【拾陆】--:

比sonnet 4.5略微强些的水平吗?


--【拾柒】--:

都不如glm 5.1的编码能力,使用下来体验完全不如claude soonet 4.6的水平


--【拾捌】--:

确实,鲸鱼是国模里最务实的,Minimax是最能吹的,Kimi和GLM也总是夸大


--【拾玖】--:

关键是尽管参数量接近,但minimax的定价是v4 flash的4倍,坑麻了

标签:人工智能
问题描述:

Nao佬的Deepseek编程评测出来了,在使用时一定一定一定要开Max
从 DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1) - 前沿快讯 - LINUX DO继续
结论:V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上,max 档位基本都能胜过前冠军GLM-5.1,大幅缩进了与Opus 的差距。而high 档位也都能跑完4 个工程。
全文:

短的结论:漫长等待的超值回报

基本情况:

DeepSeek 确实是最早备战编程的厂家之一了,早在V2 时代就发过单独的V2 Coder 模型,直到V2.5 才合入主线。此后DeepSeek 的编程基本功一直在线,DeepSeek V3.2 在之前的编程V2 榜单上也一直是代码一遍过率最高的国模。只不过Agent 时代全面到来之后,V3.2 在越来越复杂的Agent 工况下,表现没那么突出了。

DeepSeek 原本无意竞争,但树欲静而风不止,在无尽的传言与漫长的等待之后,新一代V4 正式登场。

新的V4 有Flash 与 Pro 两个模型,分别支持多档推理。Flash 与主流的中小尺寸模型大小相近,高速,低价。而Pro 则以万亿身躯,主打智力上限。

V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上,max 档位基本都能胜过前冠军GLM-5.1,大幅缩进了与Opus 的差距。而high 档位也都能跑完4 个工程。

image1482×602 124 KB
附:这是扣分表,扣的越多表示模型在该项目表现越差。

测试方法参见:大模型编程应用测试-V3榜单

细分来看,V4 Pro 在编程上有几个鲜明特点。

其一,广泛的编程知识。4 个工程,尤其C 和 F 非常需要各种细分领域知识,如果知识不足,就会出现很简单的Bug 也改不了的情况,比如没有正确配置storyboard 导致macos 的程序无法正常显示窗口等。V4 的知识量基本涵盖了这类非热门领域,并且面对各种边缘Case,V4 Pro 可以不靠猜,直接锁定Bug根因,这一点和GPT、Opus 等很像。比如E 项目中因为Canvas 配置错误导致渲染失败,V4 Pro 可以马上锁定问题,而之前测试的某一款国模在相同问题上耗费8 轮反复定位,也徒劳无获。开发完成后的自测阶段,V4 Pro 掌握的自测手段也很多,甚至会使用一些冷门方法进行代码正确性检查。V4 Flash 对于大面上的知识,掌握程度并不比Pro 少太多。Lite 只是弱在掌握的边缘知识少,遇到不直观的Bug 容易束手无策。

其二,长上下文的低幻觉。由于工程测试采取的是逐轮叠加功能的考察模式,因此在测试的后几轮,再提出全局性修改时,模型往往就需要重新阅读整个工程,找到所有关联细节。这对于GPT/Opus 等模型不是难事,但对于一众国产模型确是相当有门槛。V4 Pro、Flash 在high、max档位上,基本都能保持相当低的幻觉水平,长代码后续流程的Bug 率依然保持较低水准。

其三,偶发性的注意力失焦。遇到工程体量大,要求多的情况,V4 Pro 在high 档位下,受限于思考预算分配,会有概率随机丢弃一些实现细节,但好在经过提醒,加自测一到两轮后,问题基本都能修复,这对智力足够的V4 来说不是难事。而在max 档位下,由于思考预算充足,这类badcase 出现概率就明显下降,复杂功能一遍过的概率大幅提升。不过注意力问题并没有根除,即便在max 档位也会有小概率出现。相比Codex/Opus 这类一线模型,他们基本不犯这类小错,一般是某些小细节考虑不周导致扣分。而且V4 Pro 在Bug 定位的方法论训练上还不够充分,遇到生僻的Bug 最初也没有正确定位思路,一般要人工提示加log 跟踪。

其四,不讲究的架构与UI。V4 基本保留了之前DeepSeek V3 在各类架构设计上的思路,不讲究,不够精致,但也不糊弄,该有的分层,解耦,都会有。做不到Opus 那样一看就出自大手的规范性架构。UI 方面同样如此,直出效果不算优秀,偶尔会有些精细表达,但多数时候就是基本能用的程度。甚至high 档位偶尔下限更低,考虑不周全。如果实际开发配合设计稿,那么问题不大。但如果是纯vibe coding,那实现效果就需要反复抽卡。

总体上看,V4 Pro 的max 和 high 档位,都有着相当高的可用性。在一轮开发中,会较为严格的遵循先充分思考,再一次性写对代码,最后自测收尾的流程。没有出现边写代码边思考,或者自测到一半去改设计的情况。这种严格的编码纪律帮助V4 Pro 规避了大量可能流出的低级错误。

并且max 的消耗没有比high 高太多,平均输出基本持平,但工具调用轮数,工程文件阅读深度会明显高于high 档,至多会多出60%。这意味着使用max 档位,经济成本不会高太多,但完成任务的耗时会大幅提高。

V4 Flash 在编程上整体情况没有差V4 Pro high 档位多少,在中低难度的oneshot 任务上,二者表现几乎一致。在处理较复杂功能时,V4 Pro 一遍过的概率更高,而Lite 总会犯一些小错。并且Flash 的随机性更高,上下限差异大,相同提示词,V4 Flash 可能在完全不可用且几遍也改不好,到一遍过之间随机。不过小尺寸模型大都有此问题,并非V4 Flash 特有。V4 Flash 在Token 消耗上,显著高于V4 Pro,不过综合其单价和TPS,可用性和任务适应性也非常可观。

由于DeepSeek V4 模型整体测试规模很大,因此逻辑部分另外行文,望海涵和耐心等待。

原文链接:https://mp.weixin.qq.com/s/DwleBgjy3EiS7zWqlrsTEw

网友解答:
--【壹】--:

挺期待的,现在的token属实是太贵了,用不起了都


--【贰】--:

终于看到max的评价了,我就说deepseek官方肯定是不会夸大的,虽然贵,但是有这个水平真的很不错了,后续还降价


--【叁】--:

没有coding plan的话哪怕只是flash我也用不起啊


--【肆】--:

感觉站内一小部分人测下来拉跨集中在几个问题,一个是用官方的web来测,一个是不开max,再就是只看前端能力,实际上v4应该不错的,期待降价


--【伍】--:

期待Coding Plan 纯Token 实属用不起


--【陆】--:

即使打5折,性能不行的话,比如一个bug,5.5可能5分钟就修好了。v4反复改半小时也改不好,时间也浪费了,token也浪费了。。so还是放弃期待吧。到那时gpt 6可能也来了,5.5可能就白菜价啦。


--【柒】--:

听说,v4是全面用昇腾训练了吗,抛弃cuda了?这是真的吗


--【捌】--:

这价格,主要是没有编程套餐也是用不起的程度了。


--【玖】--:

v4 flash 模型的参数量跟 minimax 大模型参数量差不多。。。
minimax 到底多能吹,可见一斑。。。
之前大家用 minimax 是因为量大管饱,现在换成 v4 flash 应该也没问题吧


--【拾】--:

ds v4 价格也没啥优势,还是用codex+gpt5.4 5.5吧,或者cc+opus4.6


--【拾壹】--:

不知道下半年大幅降价能降多少,如果打五折呢,会有优势的吧

但是下半年别家新模型又出来了。。。


--【拾贰】--:

其实大概是sonnet4.6~opus4.5,因为nao佬的sonnet4.6还没测完,榜单没有


--【拾叁】--:

一直相信ds的品行,根本不去玩资本那一套营销和刷榜,测出来什么样就怎么说,官方测试报告写的也很真诚,不诱于誉,不恐于诽,率道而行,端然正己。


--【拾肆】--:

cc中加入的思考参数有什么用?我的意思是max和high参数也会让模型思考时间变化吗


--【拾伍】--:

深度搜索加油,期待不用A÷使用国模的那一天,并非贬低,差距还是有的。


--【拾陆】--:

比sonnet 4.5略微强些的水平吗?


--【拾柒】--:

都不如glm 5.1的编码能力,使用下来体验完全不如claude soonet 4.6的水平


--【拾捌】--:

确实,鲸鱼是国模里最务实的,Minimax是最能吹的,Kimi和GLM也总是夸大


--【拾玖】--:

关键是尽管参数量接近,但minimax的定价是v4 flash的4倍,坑麻了

标签:人工智能