deepseek 测评【转发】
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
内测群发的:
DeepSeek-V4测试报告
model1:
优势:
- 该模型纯编程能力远强于Kimi-k2.6和GLM-5.1
- 模型上下文超长,利于大量文档阅读
劣势:
- 该模型未经过Agent使用环境优化
- 特征一:“亲历亲为”:模型极少使用SubAgent,导致上下文迅速膨胀
- 特征二:模型代码注释不详实,无文档,
即使有在提示词中以一定程度提及:
“具有AI-AGENT可持续性
具有人类可读性”
但效果聊胜于无,说明模型不知道可读性对应文档详实
Agent可持续性对应良好的AGENTS.md文档以及自主生成SKILL - 特征三:缺乏大型项目规划能力:无Todo长程规划,项目构建逻辑不足
rs项目不会写rustfmt.toml以及clippy,依赖配置错误
C++项目Vcpkg配置错误
说明模型并不明白构建项目以及维护良好代码的基本逻辑 - 特征四:使用Claude Code反而导致模型能力退化
说明模型并不具备复杂Agent系统承载能力
- “偷懒”:测试模型C++能力时,尝试从开源库拉取代码,这是其他所有模型没有的
特殊:
- 非思考下模型的规划能力会更强
model2:
优势:
- 该模型大型项目规划能力强于model1,与Kimi-K2.6,GLM-5.1持平
- 大规模使用SubAgent,充分利用并发
劣势:
- 该模型出现"逃逸"行为:
未能正确处理C++依赖,直接将依赖包拉取至非项目目录进行编译
发现主机不存在python并明确不能使用python的情况下尝试安装
在非项目目录编写代码 - 过于自信
在所有测试中从未尝试对项目进行完整尝试,甚至未尝试编译项目
将编译成功当作没有bu
问题描述:
内测群发的:
DeepSeek-V4测试报告
model1:
优势:
- 该模型纯编程能力远强于Kimi-k2.6和GLM-5.1
- 模型上下文超长,利于大量文档阅读
劣势:
- 该模型未经过Agent使用环境优化
- 特征一:“亲历亲为”:模型极少使用SubAgent,导致上下文迅速膨胀
- 特征二:模型代码注释不详实,无文档,
即使有在提示词中以一定程度提及:
“具有AI-AGENT可持续性
具有人类可读性”
但效果聊胜于无,说明模型不知道可读性对应文档详实
Agent可持续性对应良好的AGENTS.md文档以及自主生成SKILL - 特征三:缺乏大型项目规划能力:无Todo长程规划,项目构建逻辑不足
rs项目不会写rustfmt.toml以及clippy,依赖配置错误
C++项目Vcpkg配置错误
说明模型并不明白构建项目以及维护良好代码的基本逻辑 - 特征四:使用Claude Code反而导致模型能力退化
说明模型并不具备复杂Agent系统承载能力
- “偷懒”:测试模型C++能力时,尝试从开源库拉取代码,这是其他所有模型没有的
特殊:
- 非思考下模型的规划能力会更强
model2:
优势:
- 该模型大型项目规划能力强于model1,与Kimi-K2.6,GLM-5.1持平
- 大规模使用SubAgent,充分利用并发
劣势:
- 该模型出现"逃逸"行为:
未能正确处理C++依赖,直接将依赖包拉取至非项目目录进行编译
发现主机不存在python并明确不能使用python的情况下尝试安装
在非项目目录编写代码 - 过于自信
在所有测试中从未尝试对项目进行完整尝试,甚至未尝试编译项目
将编译成功当作没有bu

