Deepseek v4 Pro的编程评测

2026-04-29 09:542阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

Nao佬的Deepseek编程评测出来了，在使用时一定一定一定要开Max
从 DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1) - 前沿快讯 - LINUX DO继续
结论：V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上，max 档位基本都能胜过前冠军GLM-5.1，大幅缩进了与Opus 的差距。而high 档位也都能跑完4 个工程。
全文：

短的结论：漫长等待的超值回报

基本情况：

DeepSeek 确实是最早备战编程的厂家之一了，早在V2 时代就发过单独的V2 Coder 模型，直到V2.5 才合入主线。此后DeepSeek 的编程基本功一直在线，DeepSeek V3.2 在之前的编程V2 榜单上也一直是代码一遍过率最高的国模。只不过Agent 时代全面到来之后，V3.2 在越来越复杂的Agent 工况下，表现没那么突出了。

DeepSeek 原本无意竞争，但树欲静而风不止，在无尽的传言与漫长的等待之后，新一代V4 正式登场。

新的V4 有Flash 与 Pro 两个模型，分别支持多档推理。Flash 与主流的中小尺寸模型大小相近，高速，低价。而Pro 则以万亿身躯，主打智力上限。

V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上，max 档位基本都能胜过前冠军GLM-5.1，大幅缩进了与Opus 的差距。而high 档位也都能跑完4 个工程。

image1482×602 124 KB
附：这是扣分表，扣的越多表示模型在该项目表现越差。

测试方法参见：大模型编程应用测试-V3榜单

细分来看，V4 Pro 在编程上有几个鲜明特点。

其一，广泛的编程知识。4 个工程，尤其C 和 F 非常需要各种细分领域知识，如果知识不足，就会出现很简单的Bug 也改不了的情况，比如没有正确配置storyboard 导致macos 的程序无法正常显示窗口等。V4 的知识量基本涵盖了这类非热门领域，并且面对各种边缘Case，V4 Pro 可以不靠猜，直接锁定Bug根因，这一点和GPT、Opus 等很像。比如E 项目中因为Canvas 配置错误导致渲染失败，V4 Pro 可以马上锁定问题，而之前测试的某一款国模在相同问题上耗费8 轮反复定位，也徒劳无获。开发完成后的自测阶段，V4 Pro 掌握的自测手段也很多，甚至会使用一些冷门方法进行代码正确性检查。V4 Flash 对于大面上的知识，掌握程度并不比Pro 少太多。Lite 只是弱在掌握的边缘知识少，遇到不直观的Bug 容易束手无策。

其二，长上下文的低幻觉。由于工程测试采取的是逐轮叠加功能的考察模式，因此在测试的后几轮，再提出全局性修改时，模型往往就需要重新阅读整个工程，找到所有关联细节。这对于GPT/Opus 等模型不是难事，但对于一众国产模型确是相当有门槛。V4 Pro、Flash 在high、max档位上，基本都能保持相当低的幻觉水平，长代码后续流程的Bug 率依然保持较低水准。

其三，偶发性的注意力失焦。遇到工程体量大，要求多的情况，V4 Pro 在high 档位下，受限于思考预算分配，会有概率随机丢弃一些实现细节，但好在经过提醒，加自测一到两轮后，问题基本都能修复，这对智力足够的V4 来说不是难事。而在max 档位下，由于思考预算充足，这类badcase 出现概率就明显下降，复杂功能一遍过的概率大幅提升。不过注意力问题并没有根除，即便在max 档位也会有小概率出现。相比Codex/Opus 这类一线模型，他们基本不犯这类小错，一般是某些小细节考虑不周导致扣分。而且V4 Pro 在Bug 定位的方法论训练上还不够充分，遇到生僻的Bug 最初也没有正确定位思路，一般要人工提示加log 跟踪。

其四，不讲究的架构与UI。V4 基本保留了之前DeepSeek V3 在各类架构设计上的思路，不讲究，不够精致，但也不糊弄，该有的分层，解耦，都会有。做不到Opus 那样一看就出自大手的规范性架构。UI 方面同样如此，直出效果不算优秀，偶尔会有些精细表达，但多数时候就是基本能用的程度。甚至high 档位偶尔下限更低，考虑不周全。如果实际开发配合设计稿，那么问题不大。但如果是纯vibe coding，那实现效果就需要反复抽卡。

总体上看，V4 Pro 的max 和 high 档位，都有着相当高的可用性。在一轮开发中，会较为严格的遵循先充分思考，再一次性写对代码，最后自测收尾的流程。没有出现边写代码边思考，或者自测到一半去改设计的情况。这种严格的编码纪律帮助V4 Pro 规避了大量可能流出的低级错误。

并且max 的消耗没有比high 高太多，平均输出基本持平，但工具调用轮数，工程文件阅读深度会明显高于high 档，至多会多出60%。这意味着使用max 档位，经济成本不会高太多，但完成任务的耗时会大幅提高。

V4 Flash 在编程上整体情况没有差V4 Pro high 档位多少，在中低难度的oneshot 任务上，二者表现几乎一致。在处理较复杂功能时，V4 Pro 一遍过的概率更高，而Lite 总会犯一些小错。并且Flash 的随机性更高，上下限差异大，相同提示词，V4 Flash 可能在完全不可用且几遍也改不好，到一遍过之间随机。不过小尺寸模型大都有此问题，并非V4 Flash 特有。V4 Flash 在Token 消耗上，显著高于V4 Pro，不过综合其单价和TPS，可用性和任务适应性也非常可观。

由于DeepSeek V4 模型整体测试规模很大，因此逻辑部分另外行文，望海涵和耐心等待。

原文链接：https://mp.weixin.qq.com/s/DwleBgjy3EiS7zWqlrsTEw

网友解答：

--【壹】--：

挺期待的，现在的token属实是太贵了，用不起了都

--【贰】--：

终于看到max的评价了，我就说deepseek官方肯定是不会夸大的，虽然贵，但是有这个水平真的很不错了，后续还降价

--【叁】--：

没有coding plan的话哪怕只是flash我也用不起啊

--【肆】--：

感觉站内一小部分人测下来拉跨集中在几个问题，一个是用官方的web来测，一个是不开max，再就是只看前端能力，实际上v4应该不错的，期待降价

--【伍】--：

期待Coding Plan 纯Token 实属用不起

--【陆】--：

即使打5折，性能不行的话，比如一个bug，5.5可能5分钟就修好了。v4反复改半小时也改不好，时间也浪费了，token也浪费了。。so还是放弃期待吧。到那时gpt 6可能也来了，5.5可能就白菜价啦。

--【柒】--：

听说，v4是全面用昇腾训练了吗，抛弃cuda了？这是真的吗

--【捌】--：

这价格，主要是没有编程套餐也是用不起的程度了。

--【玖】--：

v4 flash 模型的参数量跟 minimax 大模型参数量差不多。。。
minimax 到底多能吹，可见一斑。。。
之前大家用 minimax 是因为量大管饱，现在换成 v4 flash 应该也没问题吧

--【拾】--：

ds v4 价格也没啥优势，还是用codex+gpt5.4 5.5吧，或者cc+opus4.6

--【拾壹】--：

不知道下半年大幅降价能降多少，如果打五折呢，会有优势的吧

但是下半年别家新模型又出来了。。。

--【拾贰】--：

其实大概是sonnet4.6~opus4.5，因为nao佬的sonnet4.6还没测完，榜单没有

--【拾叁】--：

一直相信ds的品行，根本不去玩资本那一套营销和刷榜，测出来什么样就怎么说，官方测试报告写的也很真诚，不诱于誉，不恐于诽，率道而行，端然正己。

--【拾肆】--：

cc中加入的思考参数有什么用？我的意思是max和high参数也会让模型思考时间变化吗

--【拾伍】--：

深度搜索加油，期待不用A÷使用国模的那一天，并非贬低，差距还是有的。

--【拾陆】--：

比sonnet 4.5略微强些的水平吗？

--【拾柒】--：

都不如glm 5.1的编码能力，使用下来体验完全不如claude soonet 4.6的水平

--【拾捌】--：

确实，鲸鱼是国模里最务实的，Minimax是最能吹的，Kimi和GLM也总是夸大

--【拾玖】--：

关键是尽管参数量接近，但minimax的定价是v4 flash的4倍，坑麻了

标签：人工智能