想开一个 harness engineering 实践的长期帖子,大家一起分享实践经验

2026-04-11 08:191阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

我的愿景

把 AI 当许愿池王八,我只管许愿,它只管实现。

本帖的理念:人人为我,我为人人。


写在前面的碎碎念

最早接触 harness engineering 是在b站看到个视频:

bilibili.com

GLM-5 一战封神,如何用他构建全自动开发系统?_哔哩哔哩_bilibili

点赞过1万,开源代码给大家,求支持,求帮助,拜托了各位~~~, 视频播放量 267067、弹幕量 209、点赞数 15621、投硬币枚数 3398、收藏人数 13016、转发人数 2811, 视频作者 数字游牧人, 作者简介 AI赚钱魔人;前微软工程师;28岁即将退休;创业公司在职,四名开发,一亿市值;ACM国际程序设计竞赛金牌。,相关视频:Claude+GLM,当前国内最佳实践!放心使用!,OpenCode 实测|从零开发一个 AI 应用,能替代 Claude Code...

然后通过这个视频得知这个博文:

Effective harnesses for long-running agents

经过了解,这个东西看起来跟现实也不是很远啊,最早听过相关概念的时候还是 claude cowork,当时觉得消耗太大,离现实太遥远。

既然别人能做,我肯定也能做啊,于是我就在春节期间 (创业者是没有假期的) 基于这两个内容做了经验的泛化提取,结合我之前做的一个GDIM(Gap-Driven Iteration Model)流程,一起做成了 skills:GDIM Workflow Skill。

经过几轮实践,效果怎么说呢,差强人意吧,虽然能做事但是事后需要给它擦屁股解决一些烂设计烂代码(见这个帖子讨论 如何抑制AI Agent在重构的过程中削足适履、面多加水水多加面、补丁摞补丁、鲁布·戈德堡机械结构等问题? )。

毕竟平时以推进我自己的产品特性和优化设计为主,没有时间去优化 skills。

春节假期过后 claude opus 4.6 中转站开始频繁的大面积的停顿,挣扎了一个周后,不得不转向 gpt-5.4,因为之前 gpt-5.3-codex 理解设计呆板对 gpt 系列模型没有太好的印象,但是转向 gpt-5.4 之后发现 codex 配合 superpowers skills 效果拔群啊。于是我就逐步抛弃掉了我之前做的很多 skills(除了前面提到的GDIM、还有代码实现与设计输入之间的完成情况多agent会审、交互式设计评审、根据代码逆向生成设计文档等等),全面拥抱 codex + gpt-5.4 + superpowers。

然后我在开发自用的 codex web 版工具的时候(为了方便我出门在外也能控制家里的 codex 写代码,别问我为什么不用龙虾。。。),为了照顾到未来的拓展方向又做了一些调研,发现 opencode 自带 web 版 UI,然后 opencode 还有 oh-my-opencode 插件可以更轻松的实践 harness engineering。

于是我昨天便配置好了 oh-my-opencode,然后就开始让它给我做一个非常大的重构工程——由 8 个相互独立但又有一点交叉的开发计划组成的超级工作计划,我想要通过先拉爆它,来找出它的能力边界。


我的念头

我在查找资料的时候发现有人提到 oh-my-claudecode,了解了一下是一套基于 claude code 的 harness 系统。然后这个作者还做了一个 oh-my-codex。

现在就出现了 3 个开源的 harness 体系,各自绑定不同的生态。虽然我更喜欢 opencode 这样更开放的生态 (看起来或者说起码读起来是),但是之前也确实被 opencode 伤到过,对它已经有些嫌隙了,这次也不知道能不能再续前缘。

于是摆在我面前的就有这3个:

  • oh-my-opencode
  • oh-my-claudecode
  • oh-my-codex

除了这3个肯定还有很多其他的 harness 系统,这就很头疼了,我的精力有限,token也有限。

我相信其他人也差不多。

那不如我们就发扬一下开源精神,我们把 harness engineering 经验与体验开源,共建一个交流贴,这个帖子长期更新,所有感兴趣的人都可以参与进来。


资料汇总

harness 套件

  • oh-my-opencode
  • oh-my-claudecode
  • oh-my-codex
  • ccg-workflow

站外资料

  • Effective harnesses for long-running agents - Anthropic
  • 工程技术:在智能体优先的世界中利用 Codex - OpenAI
  • The Anatomy of an Agent Harness - Viv(langchain工程师)

站内资料

  • 新年来分享我的oh-my-opencode配置和学习心得
  • OpenAI 提出 “Harness Engineering”:完全使用 Agent 进行编程的实践 - #9,来自 yi124773651
  • 最近 harness,自主进化很火,大家有什么经验和用法吗? - #5,来自 JinH
  • 经过 8 个月 Claude Code 高强度实战,我们决定开源内部的最佳实践
  • 都在聊AI-Native Engineering,分享几个(几十个?)AI coding workflow,有站内大佬的哦:>
  • Codex 增强版:对标 Claude Code 新增 Agent Teams、Hooks、anthropic api Agent 、WebUI
  • Vibecoding 进阶教程总集篇——从能用到可控

现有套件快速比较

职责划分

Agent种类 CX CC OMOC OMCC OMCX CCG
通用 / 兜底 default General-purpose Sisyphus
探索 / 检索 explorer Explore Explore explore explore /ccg:team-research
需求 / 范围分析 Metis analyst /ccg:team-research
规划 Plan Prometheus planner planner /ccg:team-plan
计划审查 / 反驳挑战 Momus critic critic /ccg:team-review
架构 / 设计评审 Oracle architect architect init-architect / /ccg:team-plan
调试 / 根因分析 Oracle debugger debugger
实现 / 执行 worker General-purpose Hephaestus / Sisyphus-Junior executor executor /ccg:team-exec
代码审查 Oracle code-reviewer /ccg:team-review
测试工程 / TDD test-engineer test-engineer
验证 / 验收 / 完成证明 Atlas verifier verifier /ccg:team-review
文档 / 知识 / 参考实现检索 Librarian
文档写作 writer writer
多模态分析 Multimodal-Looker ui-ux-designer

套件缩写对照表

缩写 全称
CX Codex
CC Claude Code
OMOC oh-my-opencode
OMCC oh-my-claudecode
OMCX oh-my-codex
CCG ccg-workflow

需要注意的是 CCG 并不是 harness engineering 套件,只是因为在论坛里看到有人提到它很好用,才把它列进来一起比较。

主贴更新日志

  • 3/21 12:30 增加愿景和资料汇总章节,将来持续更新,增加 ccs-workflow 链接
  • 3/21 19:38 增加 harness engineering 套件对比表
网友解答:
--【壹】--:

支持,理由充分


--【贰】--:

佬创业做啥,一起交流一下


--【叁】--:

感觉这个应该算是 skills 集合,属于实践 harness 的组件,一套完整的 harness 套件/平台应当是具有自动协调执行能力的。


--【肆】--:

大家下一步是搭脚手架吗


--【伍】--:

面向企业管理应用开发的低代码平台,将来也是打算逐步把核心部分开源,现在暂时没开源的原因是还有不少设计不够简洁,需要优化,基础模块与平台的耦合性还没有完全消除。

其中的一个目标大概是核心模块或者整体能够成为AI编程能够用到的一块砖,毕竟你用AI编程来写功能总不能每次都要把基础框架再重新搭建一遍吧。


--【陆】--:
github.com

GitHub - garrytan/gstack: Use Garry Tan's exact Claude Code setup: 15...

Use Garry Tan's exact Claude Code setup: 15 opinionated tools that serve as CEO, Designer, Eng Manager, Release Manager, Doc Engineer, and QA


--【柒】--:

没有鸽啊,先汇报一下 oh-my-opencode 的体感:

  1. 首先8合1的超级工作计划对于这个agent来说显然还是超纲了,不建议这样玩。
  2. 因为使用姿势不对没有办法使用 ulw 的完全体能力,所以现在还是半手动挡吧,无法做到长时间 hands-off 工作,体验上跟 codex + superpower 差不多,前期需要参与到头脑风暴和设计决策,后面可以规划出一个几十分钟的长期多agent协作的工作吧。
  3. 比起 codex,opencode 的上下文压缩似乎没有那么精细,codex 的上下文压缩方法感觉断档领先啊
  4. 长期运行的时候 opencode 会遇到当前会话不能再分发子代理任务了的情况,只能 inline 执行,但是建议创建交接提示词,然后手动新开会话继续

简单说一下这8合1的工作计划是怎么回事,这八个计划是我根据我的项目的情况整理出来的需要优化的点,每个点都是一个独立性极强的主题。

比如前端基座从 vue 2.7 切换到 react 技术栈(我的项目是个低代码平台,前端基座是个具备动态加载能力的壳子,所以页面不多),后端maven包结构调整,后端的 springboot 2.7 升级到 3.5,后端安全框架从以 spring security 为核心,平台做适配切换到以平台定义为核心 spring security 作为适配层等等……

当然不需要理解上面的工作内容,只需要感受到这个8合一的超级工作计划有多复杂即可。

目前的情况是从 3/20 15:50 开始一直到现在每天差不多至少10小时吧,但全部精力也不完全在这个计划上,我并行着还在用 AI 给我裱糊一个 Web Agent Console 项目,用来远程操作 codex 和 claude,所以你可以认为是6~8小时的时间和大约70%~80%的token流量用在这上面,做完我让AI给我汇报进度,大约是30%。

执行质量我还没有检查,进度也没核对,今天上午完成的部分也没算进去。

但是这个进度比我人肉当 agent,用 codex + superpowers 进行多任务并行的进度要慢不少,至少慢2~3倍吧,而且执行质量也不可控。

所以,千万不要学我搞多工作计划融合交给ai去做(相信除了我也没人会这样做)


更新一下统计数据,从昨天15点多,到今天下午15点多,差不多24小时的时间,产出了这些修改:

集成面改动(实际产出代码):

  • 共涉及 38 个文件
  • 新增 590 行
  • 删除 80 行
  • 合计改动 670 行

控制面改动(设计、协调、进度记录等):

  • 共涉及 17 个文件
  • 新增 4725 行
  • 删除 208 行
  • 合计改动 4933 行

皮儿厚馅儿少。。。


--【捌】--:

我也是近期了解到了harness,不过我的理解是这样的。首先是需要自己也能知道项目的各种东西,AI也要知道。因为我是开发游戏的,所以需要AI自己开发一些相关的工具(毕竟用Cocos之类的引擎,其实是读不到游戏内的dom的,而且自动测试也是需要在浏览器中模拟点击,拖拽之类的)

我觉得重要的是要经常的去维护项目所需要的各种AI的东西,不断的分析,许愿也要工程化的许愿,而不是说想要什么就什么。相当于在培养一个功能能力很强的人,他只是很聪明的一个白纸,但不代表说他懂工程学。所以需要自己去补充工程学相关的知识,而这个就需要我和他一起都多看工程文章,然后和他一起进步。

现在我在重新优化我的游戏项目架构,和他一起分析,学习harness相关的文章。
image2560×1368 466 KB


--【玖】--:

貌似就是引用了我这个是吧 我还好奇怎么有提醒 哈哈


--【拾】--:

补一个我之前用ai总结的harness engineering相关的理论知识,促进理解。
Harness_Engineering_全景解读与程序员心理认知准备.pdf (673.4 KB)


--【拾壹】--:

已经harness了多个项目 重要的是保证类似single controller的调度层设计 和工件式标准输出给决策层. skill/docs 都应该在单测/集测中自然生成出来.
大概就是 千万不能让决策层淹没在代码细节中 保持决策层的上下文干净和信息的密集程度(需要严谨思考怎么做到(比如说我经常压缩1.2w行的chat历史为500字的开发文档 这点依赖于超长上下文的模型给出的大纲和Claude code这种tool use工具))


--【拾贰】--:

你是用什么实践的harness engineering? 我现在用的 OMO 感觉好像它定义过这些,按照你的经验需要自己再继续微调吗?


--【拾叁】--:

我把我开发经验的一部分贴出来吧

2. 多模型分工:决策层与执行层物理隔离

高阶模型(如 GPT Pro)最核心的价值在于:洞察架构缺陷、识别实现与设计的偏差、将现象抽象为数学解释、定义优化方向。如果让其深陷于查 Log、写样板代码的泥潭,其推理能力将被严重浪费。

2.1 模型工具矩阵

工具 / 模型 角色定位 擅长场景
GPT Pro (5.4-pro) 决策层(大脑) 高层方向判断、数学推导、实验策略制定、图表洞察
Claude Code / Codex 执行层(双手) 跨文件系统级代码重构、按计划批量生成与执行代码
Gemini Pro (3.1-pro) 降维与翻译层(桥梁) 压缩长对话日志、提炼核心大纲、将复杂现象转译为直觉表达
Amp 诊断层(探针) 系统全局依赖分析、生成架构图、基于代码结构定位深层 Bug
Cursor 微调层(手术刀) 单文件/Jupyter 精细编辑、人工代码审查与介入

2.2 核心协作协议:文档是模型间的 API

不可直接将杂乱的执行记录投喂给决策模型。所有的跨模型协作,须通过结构化文档传递。

文档类型 生产者 消费者 核心作用
历史大纲摘要 Gemini GPT Pro 压缩对话历史,剥离噪音,节省高阶模型的上下文空间
AGENTS.md 人类/GPT Codex 固化项目领域知识,使执行 Agent 能够免配置、自主推进
版本开发报告 Claude 任何模型 固化本轮迭代的认知(踩了什么坑、改了什么设计),防止模型失忆
可视化图表/数据 实验脚本 GPT Pro 数据降维,让 Pro 模型直接基于图表特征进行高阶决策

--【拾肆】--:

留观一下


--【拾伍】--:

按照你现在分享出来的这些经验,感觉要么用opencode,要么自己实现一个harness协调器的套件


--【拾陆】--:

站内孙佬的 grok-search 是一个mcp 配和claude cli 总结的


--【拾柒】--:

脚手架现在好办,一切都交给 codex 自动执行,你只要对着它许愿就好了。

现在的问题是,跑一次足够复杂的任务成本很高(主要是时间成本),比如我正在跑的这个大型计划,已经跑了将近一天了(昨天下午3~4点中配置好的开始自动跑,半夜我没注意它停了,今早又开始恢复执行),烧了十多亿token,现在还在进行中。

要做深度的横向比较最起码得半个月吧,但是现在AI技术发展太快,半个月其实很多技术又会出现变化,所以需要想办法加速这个过程。


--【拾捌】--:

这个ai写的不错,用的是哪个deepresearch呀?


--【拾玖】--:

前排支持