大佬们,有没有什么好的编码方面的harness执行层的设计的东西
- 内容介绍
- 文章标签
- 相关推荐
安装了很多skill不是什么好事。
其实一直想着 找一个好的harness执行层的IDE,然后不断的把总结的经验灌输到本地知识目录,然后agent就像自己的分身一样去自动化的写代码、review代码、做测试、提交代码分支、merge等。
应该有这种东西吧,大佬们推荐推荐,我也想跟上时代的发展
网友解答:--【壹】--:
那就改cc cli泄露的那版源码就行了
--【贰】--:
感觉像是loop里面加了个监管步骤的意味。不过这和让他创建一个agent team里专门创建一个审查agent有什么区别吗
--【叁】--:
有点这么个意思,只不过这是在CC里用可以这样,如果自己搭系统的话就得自己来落地这套流程了。Claude code自身就是一个harness的优秀实践嘛,用的过程中就无形体验到了A社搭建的harness工程带来的好处。感觉这个玩意儿更多的是一种思想或者方法论,实现方式可以有很多
--【肆】--:
嗯呢。我看了您的回复,我也觉得是这样。我觉得有一些agent动作执行完成后,可能还需要一些固定的workflow pipeline去处理。
--【伍】--:
有点意思,我自己在用这些做项目的时候也确实发现了,用AI做项目最大的问题还是目标偏离和审查阶段,目前是用两个codex,一个专门负责推进度和做实质审查,一个负责按照进度指示往下写代码
--【陆】--:
对,目前做的这个是一个自用的小工具,也没打算造这个轮子,不过这个流程非常像这个概念
--【柒】--:
啊?
佬,有参考的吗。
感觉是正确的方向
--【捌】--:
Harness design for long-running application development
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
直接看a的实现方案,这个是需要改架构代码的,如果只是用,只能使用skill
--【玖】--:
写了一些
https://linux.do/t/topic/1880937
--【拾】--:
这会儿看到的更多的跟harness相关的都是卖课的。。。没什么人讲实际落地,最近也在摸索真的很难搞
我个人对这玩意儿的理解其实是围绕Agent做周边建设来反馈,比如系统里要求某个Agent必须返回某种格式,除了prompt里强要求之外,还需要hook一下这个agent的响应,用代码的方式强校验它的输出,如果schema校验不符合强要求的格式,可以通过retry的方式把校验的结果、原因再吐给这个agent让他自我纠错。
从我个人角度看这其实就像是给ReAct里加了一层agent对自己输出的结果是否符合用户预期的认知,有认知就可以迭代
--【拾壹】--: web3_song:
一直想着 找一个好的harness执行层的IDE,然后不断的把总结的经验灌输到本地知识目录,然后agent就像自己的分身一样去自动化的写代码、review代码、做测试、提交代码分支、merge等。
一直想着 找一个好的harness执行层的IDE,然后不断的把总结的经验灌输到本地知识目录,然后agent就像自己的分身一样去自动化的写代码、review代码、做测试、提交代码分支、merge等。
--【拾贰】--:
那是手动的让codex推进吗
--【拾叁】--:
harness我只用在编写skill是时,自己看不同的讲相关工程化的实例,提取其中实际落地的点+实际使用skill时的反馈优化,做成一个专门用于优化skill符合harness的skill,相当于文档记录+实际落地结合,目前使用下来还不错
--【拾肆】--:
嗯。我还是老办法,把一些规则记录在CLAUDE.MD 一点也不smart
--【拾伍】--:
你这个的话可以去github搜一下gstak,一个国外大佬开源的harness,感觉跟你的场景很贴合
安装了很多skill不是什么好事。
其实一直想着 找一个好的harness执行层的IDE,然后不断的把总结的经验灌输到本地知识目录,然后agent就像自己的分身一样去自动化的写代码、review代码、做测试、提交代码分支、merge等。
应该有这种东西吧,大佬们推荐推荐,我也想跟上时代的发展
网友解答:--【壹】--:
那就改cc cli泄露的那版源码就行了
--【贰】--:
感觉像是loop里面加了个监管步骤的意味。不过这和让他创建一个agent team里专门创建一个审查agent有什么区别吗
--【叁】--:
有点这么个意思,只不过这是在CC里用可以这样,如果自己搭系统的话就得自己来落地这套流程了。Claude code自身就是一个harness的优秀实践嘛,用的过程中就无形体验到了A社搭建的harness工程带来的好处。感觉这个玩意儿更多的是一种思想或者方法论,实现方式可以有很多
--【肆】--:
嗯呢。我看了您的回复,我也觉得是这样。我觉得有一些agent动作执行完成后,可能还需要一些固定的workflow pipeline去处理。
--【伍】--:
有点意思,我自己在用这些做项目的时候也确实发现了,用AI做项目最大的问题还是目标偏离和审查阶段,目前是用两个codex,一个专门负责推进度和做实质审查,一个负责按照进度指示往下写代码
--【陆】--:
对,目前做的这个是一个自用的小工具,也没打算造这个轮子,不过这个流程非常像这个概念
--【柒】--:
啊?
佬,有参考的吗。
感觉是正确的方向
--【捌】--:
Harness design for long-running application development
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
直接看a的实现方案,这个是需要改架构代码的,如果只是用,只能使用skill
--【玖】--:
写了一些
https://linux.do/t/topic/1880937
--【拾】--:
这会儿看到的更多的跟harness相关的都是卖课的。。。没什么人讲实际落地,最近也在摸索真的很难搞
我个人对这玩意儿的理解其实是围绕Agent做周边建设来反馈,比如系统里要求某个Agent必须返回某种格式,除了prompt里强要求之外,还需要hook一下这个agent的响应,用代码的方式强校验它的输出,如果schema校验不符合强要求的格式,可以通过retry的方式把校验的结果、原因再吐给这个agent让他自我纠错。
从我个人角度看这其实就像是给ReAct里加了一层agent对自己输出的结果是否符合用户预期的认知,有认知就可以迭代
--【拾壹】--: web3_song:
一直想着 找一个好的harness执行层的IDE,然后不断的把总结的经验灌输到本地知识目录,然后agent就像自己的分身一样去自动化的写代码、review代码、做测试、提交代码分支、merge等。
一直想着 找一个好的harness执行层的IDE,然后不断的把总结的经验灌输到本地知识目录,然后agent就像自己的分身一样去自动化的写代码、review代码、做测试、提交代码分支、merge等。
--【拾贰】--:
那是手动的让codex推进吗
--【拾叁】--:
harness我只用在编写skill是时,自己看不同的讲相关工程化的实例,提取其中实际落地的点+实际使用skill时的反馈优化,做成一个专门用于优化skill符合harness的skill,相当于文档记录+实际落地结合,目前使用下来还不错
--【拾肆】--:
嗯。我还是老办法,把一些规则记录在CLAUDE.MD 一点也不smart
--【拾伍】--:
你这个的话可以去github搜一下gstak,一个国外大佬开源的harness,感觉跟你的场景很贴合

