deepseek-v4-pro + Harness 实战效果

2026-04-29 08:372阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述: 【长期贴】开个帖子,分享一下我自己是如何做harness【已更新完成,等待交作业,后续再有新想法再补充】 开发调优
据网上传,目前Anthropic的所有产品均为harness模式,不过最近他们推了一个harness产品,原本把我吓了一跳,但实质一看,并不是干货,多少有点恶心人了,好东西都藏起来。我昨晚也成功验证了自己的第二个harness,工程量比是一开始做demo的100倍,平均跑完要30-50M token,10个小时左右(glm-5),并且效果还挺好。不过还是有很多优化点的,这也正是本贴的由来,在接下来…

harness 框架:还是上面那篇帖子的产物
编程模型:deepseek-v4-pro
image437×154 4.09 KB
image497×180 8.45 KB

先说总结:效果拔群
如何拔群:1.之前我有发过贴说harness弥补了glm-5和sonnet 4.6的差距,那时的说法是 sonnet 4.6 是9成熟的饭,glm-5 + harness 是全熟的饭,等于是一个完全可用的系统。这里的最低要求当然也是完全可用,那优势在哪里呢,(这里就不对比代码质量了,从明显的内容出发,说实话,几千行我也懒得对比)。
可以看原帖,功能相对来说比较简陋的,而且相信大家也看得出来,页面设计比较不协调,最多最多只能算是个成品,今天这个页面体现就比前面的要好,至少至少能是个得出手的东西。

另外一点,从构建 时间上来说,之前GLM-5 + harness 构建一个 MVP版本,大概需要5-6个小时,而本次是2小时27分15秒。

我个人认为,从编码层面来说,是符合deepseek官方发布的数值的。
无标题1920×891 70.1 KB

PS:再来看个deepseek-v4-pro讲的冷笑话
image1184×360 14.2 KB

网友解答:
--【壹】--:

不管别人怎么说,我自已测试下来,效果可以,至少我认为超越了GLM5.1,但是真的好贵


--【贰】--:
长图预警

chat-export-2026-04-2420-14-011519×5598 1000 KB

感觉世界知识这一块确实有点东西 我问四个橘子怎么分它识别出这个问题相关的玩笑了


--【叁】--:

行不行不知道,起码人家不说假话,现在畅销的几家都吹烂了


--【肆】--:

我也试了20+,做了一个小应用的3个优化修改,按官方配置,用cc,出错无,一次过,比sonnet4.6好


--【伍】--:

这个模型过于贵了,不如直接买订阅,免费折腾。


--【陆】--:

非常好测评,爱来自浦西;一些测试结果包括我也认为ds工程手段不熟,配上一些harness/skill 等脚手架后可能会弥补不少差距,果然如此


--【柒】--:

DEEPSEEK有时候和GPT5.5可以辅助用,我们自己测试是这样的,OPUS4.7快算了吧,新闻自己都说了自己承认降智了,狗屎一样的模型,我已经很久没用过了,这波要不是拿来测试用,我都不会借同事MAX来测试,OPUS4.7狗屎一样的模型


--【捌】--:

佬 你怎么发现知识库大的,对比claude codex呢


--【玖】--:

真的假的,官方不是说:企业内部在使用,效果类似Sonnet 4.6,距离Opus还有距离


--【拾】--:

要想以前claude 3.7的时候都用的飞起 既然快赶上了 4.6了 那也不是不能用啊


--【拾壹】--:

这模型我真的试了下,我草游戏开发是牛逼,主要是知识库大,做了个滑动效果10块钱左右,然后一把过,可用,无错误,厉害了我的DS V4


--【拾贰】--:

这ds也学会地狱笑话了啊 切小朋友
估计这模型也就是价格优势了 还得看和其他几个开源模型比较如何


--【拾叁】--:

开源的 过段时间那些白嫖怪都会上,opencode go和trae那些,5day内吧 速度还是快的那些人,别的没什么优点,就是会搞流量。今天我看tencent token hub就上了,但是价格也是高的离谱


--【拾肆】--:

这么恨吗 感觉有点疯魔了,真的不是串子吗?
image888×1630 244 KB


--【拾伍】--:

价格太高,能比gpt好用才有使用场景,现在gpt-5.5用的很顺手。


--【拾陆】--:

开源模型你就等着吧,过几天白嫖的trae,nvidia nim。轻付费的opencode go,各家codingplan都会上的。好饭不怕晚,别急


--【拾柒】--:

人家那是谦虚,就SONNET 4.6那个臭狗屎,可没这么厉害,OPUS4.7我试了,失败了直接,滑动完全没法加,因为OPUS也好,SONNET臭狗屎也罢,基本上C/C++写不了一点,狗屎一样的模型,DEEPSEEK以前C/C++就强,这把更强了(GPT 5.5一把过,效果差不多)


--【拾捌】--:

我感觉是比kiro 的 sonnet 4.5 好点,没有5.4, opus 强,可以当备选用了。
claude 每次出新模型前都觉得老模型变智障了


--【拾玖】--:

这价格一致有啥好看的,又不上coding plan, 上coding plan才是好大儿

问题描述: 【长期贴】开个帖子,分享一下我自己是如何做harness【已更新完成,等待交作业,后续再有新想法再补充】 开发调优
据网上传,目前Anthropic的所有产品均为harness模式,不过最近他们推了一个harness产品,原本把我吓了一跳,但实质一看,并不是干货,多少有点恶心人了,好东西都藏起来。我昨晚也成功验证了自己的第二个harness,工程量比是一开始做demo的100倍,平均跑完要30-50M token,10个小时左右(glm-5),并且效果还挺好。不过还是有很多优化点的,这也正是本贴的由来,在接下来…

harness 框架:还是上面那篇帖子的产物
编程模型:deepseek-v4-pro
image437×154 4.09 KB
image497×180 8.45 KB

先说总结:效果拔群
如何拔群:1.之前我有发过贴说harness弥补了glm-5和sonnet 4.6的差距,那时的说法是 sonnet 4.6 是9成熟的饭,glm-5 + harness 是全熟的饭,等于是一个完全可用的系统。这里的最低要求当然也是完全可用,那优势在哪里呢,(这里就不对比代码质量了,从明显的内容出发,说实话,几千行我也懒得对比)。
可以看原帖,功能相对来说比较简陋的,而且相信大家也看得出来,页面设计比较不协调,最多最多只能算是个成品,今天这个页面体现就比前面的要好,至少至少能是个得出手的东西。

另外一点,从构建 时间上来说,之前GLM-5 + harness 构建一个 MVP版本,大概需要5-6个小时,而本次是2小时27分15秒。

我个人认为,从编码层面来说,是符合deepseek官方发布的数值的。
无标题1920×891 70.1 KB

PS:再来看个deepseek-v4-pro讲的冷笑话
image1184×360 14.2 KB

网友解答:
--【壹】--:

不管别人怎么说,我自已测试下来,效果可以,至少我认为超越了GLM5.1,但是真的好贵


--【贰】--:
长图预警

chat-export-2026-04-2420-14-011519×5598 1000 KB

感觉世界知识这一块确实有点东西 我问四个橘子怎么分它识别出这个问题相关的玩笑了


--【叁】--:

行不行不知道,起码人家不说假话,现在畅销的几家都吹烂了


--【肆】--:

我也试了20+,做了一个小应用的3个优化修改,按官方配置,用cc,出错无,一次过,比sonnet4.6好


--【伍】--:

这个模型过于贵了,不如直接买订阅,免费折腾。


--【陆】--:

非常好测评,爱来自浦西;一些测试结果包括我也认为ds工程手段不熟,配上一些harness/skill 等脚手架后可能会弥补不少差距,果然如此


--【柒】--:

DEEPSEEK有时候和GPT5.5可以辅助用,我们自己测试是这样的,OPUS4.7快算了吧,新闻自己都说了自己承认降智了,狗屎一样的模型,我已经很久没用过了,这波要不是拿来测试用,我都不会借同事MAX来测试,OPUS4.7狗屎一样的模型


--【捌】--:

佬 你怎么发现知识库大的,对比claude codex呢


--【玖】--:

真的假的,官方不是说:企业内部在使用,效果类似Sonnet 4.6,距离Opus还有距离


--【拾】--:

要想以前claude 3.7的时候都用的飞起 既然快赶上了 4.6了 那也不是不能用啊


--【拾壹】--:

这模型我真的试了下,我草游戏开发是牛逼,主要是知识库大,做了个滑动效果10块钱左右,然后一把过,可用,无错误,厉害了我的DS V4


--【拾贰】--:

这ds也学会地狱笑话了啊 切小朋友
估计这模型也就是价格优势了 还得看和其他几个开源模型比较如何


--【拾叁】--:

开源的 过段时间那些白嫖怪都会上,opencode go和trae那些,5day内吧 速度还是快的那些人,别的没什么优点,就是会搞流量。今天我看tencent token hub就上了,但是价格也是高的离谱


--【拾肆】--:

这么恨吗 感觉有点疯魔了,真的不是串子吗?
image888×1630 244 KB


--【拾伍】--:

价格太高,能比gpt好用才有使用场景,现在gpt-5.5用的很顺手。


--【拾陆】--:

开源模型你就等着吧,过几天白嫖的trae,nvidia nim。轻付费的opencode go,各家codingplan都会上的。好饭不怕晚,别急


--【拾柒】--:

人家那是谦虚,就SONNET 4.6那个臭狗屎,可没这么厉害,OPUS4.7我试了,失败了直接,滑动完全没法加,因为OPUS也好,SONNET臭狗屎也罢,基本上C/C++写不了一点,狗屎一样的模型,DEEPSEEK以前C/C++就强,这把更强了(GPT 5.5一把过,效果差不多)


--【拾捌】--:

我感觉是比kiro 的 sonnet 4.5 好点,没有5.4, opus 强,可以当备选用了。
claude 每次出新模型前都觉得老模型变智障了


--【拾玖】--:

这价格一致有啥好看的,又不上coding plan, 上coding plan才是好大儿