DeepSeek V4 Pro代码测评:抱歉没能让GLM大人尽兴

2026-04-29 09:242阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

依旧先放私有bench
image953×431 9.59 KB
这个模型吧,他的思考效率极低,,经常思考个600-1000秒
但是呢,人家GPT思考这么久真能把活干好,v4p就只能达到中游水平了

image1296×792 113 KB
写出来的很多东西只能说想法很好,但能力不足
image1206×800 136 KB
image860×801 103 KB
在审美这一块呢,不像任何一个模型,基本都有自己的理解,说明代码蒸的不多,不像某些没能尽兴的模型
image1205×801 48.5 KB

不过在知识库上确实是Gemini之下差不多最强的了
image509×413 20.7 KB
当前价格是12/24,OR折算美元1.74/3.48,对比GLM 5.1还是贵了不少的

只能希望公告里所谓的下半年国产算力之后能有大幅降价吧
image1854×511 102 KB

网友解答:
--【壹】--:

还真是,我从 GLM 4.5 开始,就拿它来写东西了


--【贰】--:

佬友这个私有Bench的3.1Pro明显高了,其实我觉得你这个榜也和实际Coding体感差不多,也可以看看nao佬的评测 DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1) - 前沿快讯 - LINUX DO


--【叁】--:

佬友会不会测评一下5.5啊,看它在佬友的私有bench里到底怎么样


--【肆】--:

编码还是建议Claude和GPT,Deepseek我觉得能够在知识量和文本对话中跟Gemini拼一拼,同时有更好的上下文注意力和Agent工具能力就很不错了,这是一个很好的起点了,各家国模应该也能从Deepseek的基础上再推进


--【伍】--:

昨天下午开始就感觉速度明显变快了,(deepseek-chat),基本上秒出,比原来好就行。


--【陆】--:

好像还是比glm便宜吧,难倒glm更便宜一点吗?


--【柒】--:

不知道有没有后端测试 前端测试估计是一般般了


--【捌】--:

劣势:
该模型未经过 Agent 使用环境优化
特征一:“亲历亲为”: 模型极少使用 SubAgent, 导致上下文迅速膨胀
特征二:模型代码注释不详实,无文档,
即使有在提示词中以一定程度提及:
“具有 AI-AGENT 可持续性
具有人类可读性”
但效果聊胜于无,说明模型不知道可读性对应文档详实
Agent 可持续性对应良好的 AGENTS.md 文档以及自主生成 SKILL
特征三:缺乏大型项目规划能力:无 Todo 长程规划,项目构建逻辑不足
rs 项目不会写 rustfmt.toml 以及 clippy, 依赖配置错误
C++ 项目 Vcpkg 配置错误
说明模型并不明白构建项目以及维护良好代码的基本逻辑
特征四:使用 Claude Code 反而导致模型能力退化
说明模型并不具备复杂 Agent 系统承载能力
“偷懒”: 测试模型 C++ 能力时,尝试从开源库拉取代码,这是其他所有模型没有的


--【玖】--: wuzm137:

编码还是建议Claude和GPT,Deepseek我觉得能够在知识量和文本对话中跟Gemini拼一拼,同时有更好的上下文注意力和Agent工具能力就很不错了,这是一个很好的起点了,各家国模应该也能从Deepseek的基础上再推进

意思是说deepseek v4啥都不行吗


--【拾】--:

我这个3.1pro是在刚发布的时候测的。最近还没更新过。
给谷歌留些面子(bushi


--【拾壹】--:

@ HLiny 我不躲,不藏,不绕。稳稳的接住你。简单的说:根因不是编码代表智力,而是逻辑代表智力。你就确认一点,要不要让我为你整理成图片。


--【拾贰】--:

支持,不知道 Deepseek V4 Pro 和 GLM 5.1 在非 coding 领域对比如何感觉 GLM 基本上就是 All in coding,不知道 Deepseek 有没有其他强项


--【拾叁】--:

私有榜是个人体感 不能代表所有 但是能表示实际


--【拾肆】--:

你的标题可以写上“编码测评”。不然的话,还是有点误会的。不是所有人都会用来写代码的。当然,这只是建议而已。


--【拾伍】--:

看楼主评测的内容未必都是编码测评吧,建议佬友看清楚帖再回复


--【拾陆】--:

我在想DeepSeekV4部署在英伟达上面会不会有神奇的情况出现?


--【拾柒】--:

其实GLM因为蒸馏巨多Claude的模型,写作方面还是很强的


--【拾捌】--:

看得出来DeepSeek根本没怎么蒸馏别的模型,有这个水平不错的,还是欠coding数据量了


--【拾玖】--:

b49f5b4a17dea111acd3e266b76f5d16604×1969 129 KB
6b2f1e1e4fd0113c42fff0cb52d7eedf1080×1060 88.8 KB
哪个真?哪个假?

问题描述:

依旧先放私有bench
image953×431 9.59 KB
这个模型吧,他的思考效率极低,,经常思考个600-1000秒
但是呢,人家GPT思考这么久真能把活干好,v4p就只能达到中游水平了

image1296×792 113 KB
写出来的很多东西只能说想法很好,但能力不足
image1206×800 136 KB
image860×801 103 KB
在审美这一块呢,不像任何一个模型,基本都有自己的理解,说明代码蒸的不多,不像某些没能尽兴的模型
image1205×801 48.5 KB

不过在知识库上确实是Gemini之下差不多最强的了
image509×413 20.7 KB
当前价格是12/24,OR折算美元1.74/3.48,对比GLM 5.1还是贵了不少的

只能希望公告里所谓的下半年国产算力之后能有大幅降价吧
image1854×511 102 KB

网友解答:
--【壹】--:

还真是,我从 GLM 4.5 开始,就拿它来写东西了


--【贰】--:

佬友这个私有Bench的3.1Pro明显高了,其实我觉得你这个榜也和实际Coding体感差不多,也可以看看nao佬的评测 DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1) - 前沿快讯 - LINUX DO


--【叁】--:

佬友会不会测评一下5.5啊,看它在佬友的私有bench里到底怎么样


--【肆】--:

编码还是建议Claude和GPT,Deepseek我觉得能够在知识量和文本对话中跟Gemini拼一拼,同时有更好的上下文注意力和Agent工具能力就很不错了,这是一个很好的起点了,各家国模应该也能从Deepseek的基础上再推进


--【伍】--:

昨天下午开始就感觉速度明显变快了,(deepseek-chat),基本上秒出,比原来好就行。


--【陆】--:

好像还是比glm便宜吧,难倒glm更便宜一点吗?


--【柒】--:

不知道有没有后端测试 前端测试估计是一般般了


--【捌】--:

劣势:
该模型未经过 Agent 使用环境优化
特征一:“亲历亲为”: 模型极少使用 SubAgent, 导致上下文迅速膨胀
特征二:模型代码注释不详实,无文档,
即使有在提示词中以一定程度提及:
“具有 AI-AGENT 可持续性
具有人类可读性”
但效果聊胜于无,说明模型不知道可读性对应文档详实
Agent 可持续性对应良好的 AGENTS.md 文档以及自主生成 SKILL
特征三:缺乏大型项目规划能力:无 Todo 长程规划,项目构建逻辑不足
rs 项目不会写 rustfmt.toml 以及 clippy, 依赖配置错误
C++ 项目 Vcpkg 配置错误
说明模型并不明白构建项目以及维护良好代码的基本逻辑
特征四:使用 Claude Code 反而导致模型能力退化
说明模型并不具备复杂 Agent 系统承载能力
“偷懒”: 测试模型 C++ 能力时,尝试从开源库拉取代码,这是其他所有模型没有的


--【玖】--: wuzm137:

编码还是建议Claude和GPT,Deepseek我觉得能够在知识量和文本对话中跟Gemini拼一拼,同时有更好的上下文注意力和Agent工具能力就很不错了,这是一个很好的起点了,各家国模应该也能从Deepseek的基础上再推进

意思是说deepseek v4啥都不行吗


--【拾】--:

我这个3.1pro是在刚发布的时候测的。最近还没更新过。
给谷歌留些面子(bushi


--【拾壹】--:

@ HLiny 我不躲,不藏,不绕。稳稳的接住你。简单的说:根因不是编码代表智力,而是逻辑代表智力。你就确认一点,要不要让我为你整理成图片。


--【拾贰】--:

支持,不知道 Deepseek V4 Pro 和 GLM 5.1 在非 coding 领域对比如何感觉 GLM 基本上就是 All in coding,不知道 Deepseek 有没有其他强项


--【拾叁】--:

私有榜是个人体感 不能代表所有 但是能表示实际


--【拾肆】--:

你的标题可以写上“编码测评”。不然的话,还是有点误会的。不是所有人都会用来写代码的。当然,这只是建议而已。


--【拾伍】--:

看楼主评测的内容未必都是编码测评吧,建议佬友看清楚帖再回复


--【拾陆】--:

我在想DeepSeekV4部署在英伟达上面会不会有神奇的情况出现?


--【拾柒】--:

其实GLM因为蒸馏巨多Claude的模型,写作方面还是很强的


--【拾捌】--:

看得出来DeepSeek根本没怎么蒸馏别的模型,有这个水平不错的,还是欠coding数据量了


--【拾玖】--:

b49f5b4a17dea111acd3e266b76f5d16604×1969 129 KB
6b2f1e1e4fd0113c42fff0cb52d7eedf1080×1060 88.8 KB
哪个真?哪个假?