deepseek 测评【转发】

2026-04-29 10:342阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

内测群发的:

DeepSeek-V4测试报告
model1:
优势:

  1. 该模型纯编程能力远强于Kimi-k2.6和GLM-5.1
  2. 模型上下文超长,利于大量文档阅读

劣势:

  1. 该模型未经过Agent使用环境优化
    1. 特征一:“亲历亲为”:模型极少使用SubAgent,导致上下文迅速膨胀
    2. 特征二:模型代码注释不详实,无文档,
      即使有在提示词中以一定程度提及:
      “具有AI-AGENT可持续性
      具有人类可读性”
      但效果聊胜于无,说明模型不知道可读性对应文档详实
      Agent可持续性对应良好的AGENTS.md文档以及自主生成SKILL
    3. 特征三:缺乏大型项目规划能力:无Todo长程规划,项目构建逻辑不足
      rs项目不会写rustfmt.toml以及clippy,依赖配置错误
      C++项目Vcpkg配置错误
      说明模型并不明白构建项目以及维护良好代码的基本逻辑
    4. 特征四:使用Claude Code反而导致模型能力退化
      说明模型并不具备复杂Agent系统承载能力
  2. “偷懒”:测试模型C++能力时,尝试从开源库拉取代码,这是其他所有模型没有的

特殊:

  1. 非思考下模型的规划能力会更强

model2:
优势:

  1. 该模型大型项目规划能力强于model1,与Kimi-K2.6,GLM-5.1持平
  2. 大规模使用SubAgent,充分利用并发

劣势:

  1. 该模型出现"逃逸"行为:
    未能正确处理C++依赖,直接将依赖包拉取至非项目目录进行编译
    发现主机不存在python并明确不能使用python的情况下尝试安装
    在非项目目录编写代码
  2. 过于自信
    在所有测试中从未尝试对项目进行完整尝试,甚至未尝试编译项目
    将编译成功当作没有bug而不进行检查
  3. 存在强于model1的幻觉
  4. 存在类似于Kimi-K2.6的过早优化,高耦合特化代码
  5. 存在猜测性修复而不经用户讨论
  6. 用户询问某处更改时,检查到一半发现有问题就自顾自地去改了而不提醒用户
  7. 自主查询依赖文档的能力较弱
  8. model1中所提及的1.3仍然存在,模型更注重具体代码是否完成,而不注重项目的维护难度
    会尝试规避检查,甚至干脆不检查,即使提示词已经强调
  9. 存在比model1更强的惰性,会在任务执行中段就宣称全部完成
  10. 出现bug会宣称是外部原因,如用户破坏代码等错误归因
网友解答:
--【壹】--: Jan Rodemoyer:

用户询问某处更改时,检查到一半发现有问题就自顾自地去改了而不提醒用户

byd gpt-5.5 感觉一直这样,虽然我没写指令吧,但是这个我感觉他也有这个毛病


--【贰】--:

这个model1和model2是啥意思?


--【叁】--:

应该指的是v4-base和v4-pro吧


--【肆】--:

部分私人测评

上下文的低幻觉。由于工程测试采取的是逐轮叠加功能的考察模式,因此在测试的后几轮,再提出全局性修改时,模型往往就需要重新阅读整个工程,找到所有关联细节。这对于GPT/Opus 等模型不是难事,但对于一众国产模型确是相当有门槛。V4 Pro、Flash 在high、max档位上,基本都能保持相当低的幻觉水平,长代码后续流程的Bug 率依然保持较低水准

偶发性的注意力失焦。遇到工程体量大,要求多的情况,V4 Pro 在high 档位下,受限于思考预算分配,会有概率随机丢弃一些实现细节,但好在经过提醒,加自测一到两轮后,问题基本都能修复,这对智力足够的V4 来说不是难事。而在max 档位下,由于思考预算充足,这类badcase 出现概率就明显下降,复杂功能一遍过的概率大幅提升。不过注意力问题并没有根除,即便在max 档位也会有小概率出现。相比Codex/Opus 这类一线模型,他们基本不犯这类小错,一般是某些小细节考虑不周导致扣分。而且V4 Pro 在Bug 定位的方法论训练上还不够充分,遇到生僻的Bug 最初也没有正确定位思路,一般要人工提示加log 跟踪。

不讲究的架构与UI。V4 基本保留了之前DeepSeek V3 在各类架构设计上的思路,不讲究,不够精致,但也不糊弄,该有的分层,解耦,都会有。做不到Opus 那样一看就出自大手的规范性架构。UI 方面同样如此,直出效果不算优秀,偶尔会有些精细表达,但多数时候就是基本能用的程度。甚至high 档位偶尔下限更低,考虑不周全。如果实际开发配合设计稿,那么问题不大。但如果是纯vibe coding,那实现效果就需要反复抽卡。

V4 Pro 的max 和 high 档位,都有着相当高的可用性。在一轮开发中,会较为严格的遵循先充分思考,再一次性写对代码,最后自测收尾的流程。没有出现边写代码边思考,或者自测到一半去改设计的情况。这种严格的编码纪律帮助V4 Pro 规避了大量可能流出的低级错误。

由于DeepSeek V4 模型整体测试规模很大,因此逻辑部分另外行文,望海涵和耐心等待。

问题描述:

内测群发的:

DeepSeek-V4测试报告
model1:
优势:

  1. 该模型纯编程能力远强于Kimi-k2.6和GLM-5.1
  2. 模型上下文超长,利于大量文档阅读

劣势:

  1. 该模型未经过Agent使用环境优化
    1. 特征一:“亲历亲为”:模型极少使用SubAgent,导致上下文迅速膨胀
    2. 特征二:模型代码注释不详实,无文档,
      即使有在提示词中以一定程度提及:
      “具有AI-AGENT可持续性
      具有人类可读性”
      但效果聊胜于无,说明模型不知道可读性对应文档详实
      Agent可持续性对应良好的AGENTS.md文档以及自主生成SKILL
    3. 特征三:缺乏大型项目规划能力:无Todo长程规划,项目构建逻辑不足
      rs项目不会写rustfmt.toml以及clippy,依赖配置错误
      C++项目Vcpkg配置错误
      说明模型并不明白构建项目以及维护良好代码的基本逻辑
    4. 特征四:使用Claude Code反而导致模型能力退化
      说明模型并不具备复杂Agent系统承载能力
  2. “偷懒”:测试模型C++能力时,尝试从开源库拉取代码,这是其他所有模型没有的

特殊:

  1. 非思考下模型的规划能力会更强

model2:
优势:

  1. 该模型大型项目规划能力强于model1,与Kimi-K2.6,GLM-5.1持平
  2. 大规模使用SubAgent,充分利用并发

劣势:

  1. 该模型出现"逃逸"行为:
    未能正确处理C++依赖,直接将依赖包拉取至非项目目录进行编译
    发现主机不存在python并明确不能使用python的情况下尝试安装
    在非项目目录编写代码
  2. 过于自信
    在所有测试中从未尝试对项目进行完整尝试,甚至未尝试编译项目
    将编译成功当作没有bug而不进行检查
  3. 存在强于model1的幻觉
  4. 存在类似于Kimi-K2.6的过早优化,高耦合特化代码
  5. 存在猜测性修复而不经用户讨论
  6. 用户询问某处更改时,检查到一半发现有问题就自顾自地去改了而不提醒用户
  7. 自主查询依赖文档的能力较弱
  8. model1中所提及的1.3仍然存在,模型更注重具体代码是否完成,而不注重项目的维护难度
    会尝试规避检查,甚至干脆不检查,即使提示词已经强调
  9. 存在比model1更强的惰性,会在任务执行中段就宣称全部完成
  10. 出现bug会宣称是外部原因,如用户破坏代码等错误归因
网友解答:
--【壹】--: Jan Rodemoyer:

用户询问某处更改时,检查到一半发现有问题就自顾自地去改了而不提醒用户

byd gpt-5.5 感觉一直这样,虽然我没写指令吧,但是这个我感觉他也有这个毛病


--【贰】--:

这个model1和model2是啥意思?


--【叁】--:

应该指的是v4-base和v4-pro吧


--【肆】--:

部分私人测评

上下文的低幻觉。由于工程测试采取的是逐轮叠加功能的考察模式,因此在测试的后几轮,再提出全局性修改时,模型往往就需要重新阅读整个工程,找到所有关联细节。这对于GPT/Opus 等模型不是难事,但对于一众国产模型确是相当有门槛。V4 Pro、Flash 在high、max档位上,基本都能保持相当低的幻觉水平,长代码后续流程的Bug 率依然保持较低水准

偶发性的注意力失焦。遇到工程体量大,要求多的情况,V4 Pro 在high 档位下,受限于思考预算分配,会有概率随机丢弃一些实现细节,但好在经过提醒,加自测一到两轮后,问题基本都能修复,这对智力足够的V4 来说不是难事。而在max 档位下,由于思考预算充足,这类badcase 出现概率就明显下降,复杂功能一遍过的概率大幅提升。不过注意力问题并没有根除,即便在max 档位也会有小概率出现。相比Codex/Opus 这类一线模型,他们基本不犯这类小错,一般是某些小细节考虑不周导致扣分。而且V4 Pro 在Bug 定位的方法论训练上还不够充分,遇到生僻的Bug 最初也没有正确定位思路,一般要人工提示加log 跟踪。

不讲究的架构与UI。V4 基本保留了之前DeepSeek V3 在各类架构设计上的思路,不讲究,不够精致,但也不糊弄,该有的分层,解耦,都会有。做不到Opus 那样一看就出自大手的规范性架构。UI 方面同样如此,直出效果不算优秀,偶尔会有些精细表达,但多数时候就是基本能用的程度。甚至high 档位偶尔下限更低,考虑不周全。如果实际开发配合设计稿,那么问题不大。但如果是纯vibe coding,那实现效果就需要反复抽卡。

V4 Pro 的max 和 high 档位,都有着相当高的可用性。在一轮开发中,会较为严格的遵循先充分思考,再一次性写对代码,最后自测收尾的流程。没有出现边写代码边思考,或者自测到一半去改设计的情况。这种严格的编码纪律帮助V4 Pro 规避了大量可能流出的低级错误。

由于DeepSeek V4 模型整体测试规模很大,因此逻辑部分另外行文,望海涵和耐心等待。