DeepSeek V4 Pro代码测评：抱歉没能让GLM大人尽兴

2026-04-29 09:242阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

问题描述：

依旧先放私有bench
image953×431 9.59 KB
这个模型吧，他的思考效率极低，，经常思考个600-1000秒
但是呢，人家GPT思考这么久真能把活干好，v4p就只能达到中游水平了

image1296×792 113 KB
写出来的很多东西只能说想法很好，但能力不足
image1206×800 136 KB
image860×801 103 KB
在审美这一块呢，不像任何一个模型，基本都有自己的理解，说明代码蒸的不多，~~不像某些没能尽兴的模型~~
image1205×801 48.5 KB

不过在知识库上确实是Gemini之下差不多最强的了
image509×413 20.7 KB
当前价格是12/24，OR折算美元1.74/3.48，对比GLM 5.1还是贵了不少的

只能希望公告里所谓的下半年国产算力之后能有大幅降价吧
image1854×511 102 KB

网友解答：

--【壹】--：

还真是，我从 GLM 4.5 开始，就拿它来写东西了

--【贰】--：

佬友这个私有Bench的3.1Pro明显高了，其实我觉得你这个榜也和实际Coding体感差不多，也可以看看nao佬的评测 DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1) - 前沿快讯 - LINUX DO

--【叁】--：

佬友会不会测评一下5.5啊，看它在佬友的私有bench里到底怎么样

--【肆】--：

编码还是建议Claude和GPT，Deepseek我觉得能够在知识量和文本对话中跟Gemini拼一拼，同时有更好的上下文注意力和Agent工具能力就很不错了，这是一个很好的起点了，各家国模应该也能从Deepseek的基础上再推进

--【伍】--：

昨天下午开始就感觉速度明显变快了，(deepseek-chat)，基本上秒出，比原来好就行。

--【陆】--：

好像还是比glm便宜吧，难倒glm更便宜一点吗？

--【柒】--：

不知道有没有后端测试前端测试估计是一般般了

--【捌】--：

劣势:
该模型未经过 Agent 使用环境优化
特征一:“亲历亲为”: 模型极少使用 SubAgent, 导致上下文迅速膨胀
特征二：模型代码注释不详实，无文档，
即使有在提示词中以一定程度提及:
“具有 AI-AGENT 可持续性
具有人类可读性”
但效果聊胜于无，说明模型不知道可读性对应文档详实
Agent 可持续性对应良好的 AGENTS.md 文档以及自主生成 SKILL
特征三：缺乏大型项目规划能力：无 Todo 长程规划，项目构建逻辑不足
rs 项目不会写 rustfmt.toml 以及 clippy, 依赖配置错误
C++ 项目 Vcpkg 配置错误
说明模型并不明白构建项目以及维护良好代码的基本逻辑
特征四：使用 Claude Code 反而导致模型能力退化
说明模型并不具备复杂 Agent 系统承载能力
“偷懒”: 测试模型 C++ 能力时，尝试从开源库拉取代码，这是其他所有模型没有的

--【玖】--： wuzm137:

编码还是建议Claude和GPT，Deepseek我觉得能够在知识量和文本对话中跟Gemini拼一拼，同时有更好的上下文注意力和Agent工具能力就很不错了，这是一个很好的起点了，各家国模应该也能从Deepseek的基础上再推进

意思是说deepseek v4啥都不行吗

--【拾】--：

我这个3.1pro是在刚发布的时候测的。最近还没更新过。
~~给谷歌留些面子（bushi~~

--【拾壹】--：

@ HLiny 我不躲，不藏，不绕。稳稳的接住你。简单的说：根因不是编码代表智力，而是逻辑代表智力。你就确认一点，要不要让我为你整理成图片。

--【拾贰】--：

支持，不知道 Deepseek V4 Pro 和 GLM 5.1 在非 coding 领域对比如何感觉 GLM 基本上就是 All in coding，不知道 Deepseek 有没有其他强项

--【拾叁】--：

私有榜是个人体感不能代表所有但是能表示实际

--【拾肆】--：

你的标题可以写上“编码测评”。不然的话，还是有点误会的。不是所有人都会用来写代码的。当然，这只是建议而已。

--【拾伍】--：

看楼主评测的内容未必都是编码测评吧，建议佬友看清楚帖再回复

--【拾陆】--：

我在想DeepSeekV4部署在英伟达上面会不会有神奇的情况出现？

--【拾柒】--：

其实GLM因为蒸馏巨多Claude的模型，写作方面还是很强的

--【拾捌】--：

看得出来DeepSeek根本没怎么蒸馏别的模型，有这个水平不错的，还是欠coding数据量了

--【拾玖】--：

b49f5b4a17dea111acd3e266b76f5d16604×1969 129 KB
6b2f1e1e4fd0113c42fff0cb52d7eedf1080×1060 88.8 KB
哪个真？哪个假？

标签：DeepSeek 人工智能

问题描述：

不过在知识库上确实是Gemini之下差不多最强的了
image509×413 20.7 KB
当前价格是12/24，OR折算美元1.74/3.48，对比GLM 5.1还是贵了不少的

只能希望公告里所谓的下半年国产算力之后能有大幅降价吧
image1854×511 102 KB

网友解答：

--【壹】--：

还真是，我从 GLM 4.5 开始，就拿它来写东西了

--【贰】--：

--【叁】--：

佬友会不会测评一下5.5啊，看它在佬友的私有bench里到底怎么样

--【肆】--：

--【伍】--：

昨天下午开始就感觉速度明显变快了，(deepseek-chat)，基本上秒出，比原来好就行。

--【陆】--：

好像还是比glm便宜吧，难倒glm更便宜一点吗？

--【柒】--：

不知道有没有后端测试前端测试估计是一般般了

--【捌】--：

--【玖】--： wuzm137:

编码还是建议Claude和GPT，Deepseek我觉得能够在知识量和文本对话中跟Gemini拼一拼，同时有更好的上下文注意力和Agent工具能力就很不错了，这是一个很好的起点了，各家国模应该也能从Deepseek的基础上再推进

意思是说deepseek v4啥都不行吗

--【拾】--：

我这个3.1pro是在刚发布的时候测的。最近还没更新过。
~~给谷歌留些面子（bushi~~

--【拾壹】--：

@ HLiny 我不躲，不藏，不绕。稳稳的接住你。简单的说：根因不是编码代表智力，而是逻辑代表智力。你就确认一点，要不要让我为你整理成图片。

--【拾贰】--：

支持，不知道 Deepseek V4 Pro 和 GLM 5.1 在非 coding 领域对比如何感觉 GLM 基本上就是 All in coding，不知道 Deepseek 有没有其他强项

--【拾叁】--：

私有榜是个人体感不能代表所有但是能表示实际

--【拾肆】--：

你的标题可以写上“编码测评”。不然的话，还是有点误会的。不是所有人都会用来写代码的。当然，这只是建议而已。

--【拾伍】--：

看楼主评测的内容未必都是编码测评吧，建议佬友看清楚帖再回复

--【拾陆】--：

我在想DeepSeekV4部署在英伟达上面会不会有神奇的情况出现？

--【拾柒】--：

其实GLM因为蒸馏巨多Claude的模型，写作方面还是很强的

--【拾捌】--：

看得出来DeepSeek根本没怎么蒸馏别的模型，有这个水平不错的，还是欠coding数据量了

--【拾玖】--：

b49f5b4a17dea111acd3e266b76f5d16604×1969 129 KB
6b2f1e1e4fd0113c42fff0cb52d7eedf1080×1060 88.8 KB
哪个真？哪个假？

标签：DeepSeek 人工智能

相关推荐

相关推荐