从Claude Code泄漏的代码来看,是否可以认为Claude其实也对自家模型也没啥信心?

2026-04-11 12:171阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

Claude Code中复杂且巧妙的提示词工程可谓非常多。
那么可否认为头部企业对自家的顶级模型也没啥特别好的办法?
为了可靠性,也只能弄出非常繁杂的提示词工程?
现阶段的LLM果然就这水平了?

网友解答:
--【壹】--:

不是没有信心,而是LLM就这么个玩意儿,不管吹的多牛逼,这玩意儿的幻觉就是控制不住的


--【贰】--:

提示词工程是必要的,


--【叁】--:

提示词像是思想钢印的启动咒语


--【肆】--:

其实从最近的风向(从力大砖飞堆参数和算力,到强调系统工程),就能看出边际递减效应已经很明显了。


--【伍】--:

確實,高質量數據不夠,整天整出一些新概念,也只能整整一些新詞了


--【陆】--:

顶级模型也需要顶级的使用方法撒,提示词就相当于使用手册把。我是这么理解的。


--【柒】--:

有信心,但不完全有,巫术太多了。
况且还不止是提示词。


--【捌】--:

能,但是实现某一任务的提示词工程显然有些过于复杂了,而且某些玄妙的机制,在Claude Code泄漏前,我们对此一知半解,甚至一无所知,这就很糟糕了。
“so,我的提示词,真的发挥作用了吗?”
“嗯?我的提示词为什么工作了?是这个效果吗?”


--【玖】--:

大模型的泛化和传统机器学习模型没差,都是在什么上面训练,在什么上面预测效果就好。复杂的提示词不一定说明是纯后期的prompt调优,人家可是自家模型的harness,肯定是知道模型在什么数据分布和上下文构造上训练的。只能说claude的训练针对这种格式的agent工作流调优已经做得很充分了,再加上现在CC这么大量使用转起来的数据飞轮,用现有的这种提示词结构的效果只会更好。模型训练方式和使用方式向来都是彼此补充的,在目前已经有一套比较能work的模型+harness组合的情况下,这样的组合只会越来越robust效果越来越好。


--【拾】--:

什么叫没信心?全自动流程还远远没到那一步吧,claude code能充分发挥模型能力,怎么能推断模型能力不行????????


--【拾壹】--:

就是因为有信心才敢搞这么复杂的提示词工程


--【拾贰】--:

是有这个趋势,而且很明显。


--【拾叁】--:

嗯,Claude Code泄漏的提示词基本上实锤这点。
他们尚且使用了大量几乎是巫术的提示词,更何况我们。
而且我猜估计A\自己的人对于在Claude Code堆砌的提示词到底有几分真正有用,怕是也没有底。
前段时间还在提LLM的可解释性,难说啊……


--【拾肆】--:

另外一种说法就是-“凑活用吧,还能不用吗?”


--【拾伍】--:

呃,我感觉应该主要的问题还是模型微调的成本太高了 它模型太大了,你要调一次,成本太高。但是你只用提示词去对它进行约束和引导的话,就是那几句话的事


--【拾陆】--:

而且我觉得现在最大的问题还是“模型是黑盒”,你的任何经过大量验证的调优手段(尤其是特别细节的,比如提示词中指定推理链),都可能会在之后产生负优化,而你根本不知道为什么,只能猜。


--【拾柒】--:

大模型再强也得看使用者吧,假如使用者都描述不清楚自己的需求,怎么能让大模型给出完美的产出呢?故提示词工程依旧是有着不可替代性的,预设的提示词就是作为一个兜底的机制。而且cc官方的提示词也未必是是未来的最佳实践,只是他们根据自家模型特性,做了他们认为合适的引导。未来肯定还会有变化的。
毕竟大语言模型就是个文本模型,不具备agent能力,没有强约束很难用于工程化。不过可以预见的是,以后的模型会加大预训练agent能力,弱化关于这部分的提示词约束,以获得更高质量的上下文。


--【拾捌】--:

希望真的是他们家模型的特性吧。
这让我不至于因为不懂巫术而困扰。


--【拾玖】--:

为了可靠性,做了太多牺牲了,这可以认为是模型能力不太行的一个侧证。
然后即使如此,有时候依旧会出问题,这对于引入人工智能来实现全自动流程来说,是个很糟糕的消息。

问题描述:

Claude Code中复杂且巧妙的提示词工程可谓非常多。
那么可否认为头部企业对自家的顶级模型也没啥特别好的办法?
为了可靠性,也只能弄出非常繁杂的提示词工程?
现阶段的LLM果然就这水平了?

网友解答:
--【壹】--:

不是没有信心,而是LLM就这么个玩意儿,不管吹的多牛逼,这玩意儿的幻觉就是控制不住的


--【贰】--:

提示词工程是必要的,


--【叁】--:

提示词像是思想钢印的启动咒语


--【肆】--:

其实从最近的风向(从力大砖飞堆参数和算力,到强调系统工程),就能看出边际递减效应已经很明显了。


--【伍】--:

確實,高質量數據不夠,整天整出一些新概念,也只能整整一些新詞了


--【陆】--:

顶级模型也需要顶级的使用方法撒,提示词就相当于使用手册把。我是这么理解的。


--【柒】--:

有信心,但不完全有,巫术太多了。
况且还不止是提示词。


--【捌】--:

能,但是实现某一任务的提示词工程显然有些过于复杂了,而且某些玄妙的机制,在Claude Code泄漏前,我们对此一知半解,甚至一无所知,这就很糟糕了。
“so,我的提示词,真的发挥作用了吗?”
“嗯?我的提示词为什么工作了?是这个效果吗?”


--【玖】--:

大模型的泛化和传统机器学习模型没差,都是在什么上面训练,在什么上面预测效果就好。复杂的提示词不一定说明是纯后期的prompt调优,人家可是自家模型的harness,肯定是知道模型在什么数据分布和上下文构造上训练的。只能说claude的训练针对这种格式的agent工作流调优已经做得很充分了,再加上现在CC这么大量使用转起来的数据飞轮,用现有的这种提示词结构的效果只会更好。模型训练方式和使用方式向来都是彼此补充的,在目前已经有一套比较能work的模型+harness组合的情况下,这样的组合只会越来越robust效果越来越好。


--【拾】--:

什么叫没信心?全自动流程还远远没到那一步吧,claude code能充分发挥模型能力,怎么能推断模型能力不行????????


--【拾壹】--:

就是因为有信心才敢搞这么复杂的提示词工程


--【拾贰】--:

是有这个趋势,而且很明显。


--【拾叁】--:

嗯,Claude Code泄漏的提示词基本上实锤这点。
他们尚且使用了大量几乎是巫术的提示词,更何况我们。
而且我猜估计A\自己的人对于在Claude Code堆砌的提示词到底有几分真正有用,怕是也没有底。
前段时间还在提LLM的可解释性,难说啊……


--【拾肆】--:

另外一种说法就是-“凑活用吧,还能不用吗?”


--【拾伍】--:

呃,我感觉应该主要的问题还是模型微调的成本太高了 它模型太大了,你要调一次,成本太高。但是你只用提示词去对它进行约束和引导的话,就是那几句话的事


--【拾陆】--:

而且我觉得现在最大的问题还是“模型是黑盒”,你的任何经过大量验证的调优手段(尤其是特别细节的,比如提示词中指定推理链),都可能会在之后产生负优化,而你根本不知道为什么,只能猜。


--【拾柒】--:

大模型再强也得看使用者吧,假如使用者都描述不清楚自己的需求,怎么能让大模型给出完美的产出呢?故提示词工程依旧是有着不可替代性的,预设的提示词就是作为一个兜底的机制。而且cc官方的提示词也未必是是未来的最佳实践,只是他们根据自家模型特性,做了他们认为合适的引导。未来肯定还会有变化的。
毕竟大语言模型就是个文本模型,不具备agent能力,没有强约束很难用于工程化。不过可以预见的是,以后的模型会加大预训练agent能力,弱化关于这部分的提示词约束,以获得更高质量的上下文。


--【拾捌】--:

希望真的是他们家模型的特性吧。
这让我不至于因为不懂巫术而困扰。


--【拾玖】--:

为了可靠性,做了太多牺牲了,这可以认为是模型能力不太行的一个侧证。
然后即使如此,有时候依旧会出问题,这对于引入人工智能来实现全自动流程来说,是个很糟糕的消息。