【自荐】CodexPotter:让 codex 连续工作一天不要停
- 内容介绍
- 文章标签
- 相关推荐
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下全是人写的,没有 AI 废话,信息密度够高,放心阅读!
发布一个自己用了几个月的 codex 循环触发器界面 CodexPotter,它改进自 Ralph loop;个人最长压榨记录是一个窗口连续干活三天不停(并烧掉 $1000 token)、实现全自动无人值守 1:1 复刻一个 SaaS 服务:
界面和 codex 非常接近1480×1786 221 KB
以前觉得过于简单了就懒得打字发帖,结果现在仍然没有满意的替代品,所以发出来让更多人能改善一下工作流,毕竟仍然挺好用的!
用法
项目开源,可直接 npm 安装,欢迎 star:
GitHub - breezewish/CodexPotter: Ralph loop for codex — continuously reconciles...
Ralph loop for codex — continuously reconciles codebase toward your instructed state
和 codex 用法不一样的是,不要和它对话,而是给它安排任务(或需要达成什么状态),例如:
详细分析项目细节,分析技术原理,写到 analysis.md
按照 plan.md 进行完整实现
工作原理
CodexPotter 拿着你的指令对 codex 进行 Loop —— 它让 codex 按照你的指令工作,并在 codex 声称自己工作完毕后,用全新的上下文再次发起一轮又一轮相同工作的 review + fix,直到 codex 实在无事可做了再结束(或默认 10 轮上限结束)。
𝒀𝑶𝑼𝑹 𝑷𝑹𝑶𝑴𝑷𝑻:
𝘚𝘪𝘮𝘱𝘭𝘪𝘧𝘺 𝘵𝘩𝘦 𝘲𝘶𝘦𝘳𝘺 𝘦𝘯𝘨𝘪𝘯𝘦 𝘣𝘺 𝘧𝘰𝘭𝘭𝘰𝘸𝘪𝘯𝘨 ...
│
│
codex: Work or review according to MAIN.md │
┌──────────────────────────┐ │
│ │ ▼
┌─────────┴─────────┐ ┌──────────▼────────┐ ┌───────────────────┐
│ CodexPotter │ │ codex │◄─────►│ MAIN.md │
└─────────▲─────────┘ └──────────┬────────┘ └───────────────────┘
│ │
│ Work finished │
└──────────────────────────┘
特性
CodexPotter 非常克制,用几个最佳实践将循环工作(reconcile)这件事情做好,nothing more:
- 每轮都是全新的上下文 —— 保证 LLM 最高智商、且尽量尝试全新探索而非遵循已有轨迹
- 指令和进度都存在文件中 —— 从而在一轮轮的 New Context / Compact 中维持 100% 遵循你的原始指令不丢细节
- 绝不引入也许适合你项目但也许完全不适合你项目的各种佐料 prompt —— 不会规定功能开发流程,不会为你额外做 Plan 拆分、不会指导大模型如何写好 Plan、不会教如何 Simplify 代码,等等
- 你已安装的 SKILL 或相关 AGENTS.md 仍然会生效,你自己决定各个项目应该如何 Plan,如何 Code,如何 Review
最迷人的特性:几乎总是正收益
用别的 Harness / Skill 你只能玄学体感估计到底有没有用,但 CodexPotter 几乎都是正向提升
Why? 因为 CodexPotter 只做循环,其他什么佐料都不会加
第 1 轮就是 LLM 牛马拿着你的 prompt 直接执行的结果
第 2+ 轮是 CodexPotter 替你找一个全新 LLM 牛马核对任务并查漏补缺的结果
当它跑了 2 轮,3 轮 …… 甚至 10 轮,你就知道 1 轮的结果到底漏了多少东西、犯了多少错
适合做什么事情?
各种愿意用更长时间换取更高质量的场景,例如:
- 写一个比较完备的技术文档,尽可能考虑到各种边角细节(PS:记得要求输出技术文档到文件,否则第二轮都看不到第一轮写了啥)
- 一个已经确定好的功能开发,希望 codex 写高质量的代码而不需要你来来回回鞭策和研究它漏了什么
- 让它自己迭代一个晚上、对代码进行一轮又一轮性能优化
- 复刻一个 SaaS 服务 —— 这简直是大模型最擅长的工作了,从逆向接口、编码、到参考 SaaS 测试克隆下来的服务,大模型全都可以自己迭代,你唯一需要做的就是给足它时间、写清楚边界、验证条件
不适合做什么事情?
CodexPotter 并不是替代 codex,这些场景一般还是 codex 更适合:
- 简单的任务,希望快速得到结果(例如调整前端界面 指哪儿改哪儿)
- 与大模型一问一答(例如 Brainstorming)
长时间无人值守工作指南
排队
你可以为它排队一系列工作(非 Steer),每个工作都循环 N 轮后再进行下一项工作。例如排队一系列问题修复,或拆分多个步骤,让每个步骤都高质量完成:
指令1:设计 xxx 功能,写进 plan_xx.md
指令2:按照 plan_xx.md 进行实现
指令3:检查 plan_xx.md 相关改动代码,对测试查漏补缺
指令4:对整个项目进行简化
写清楚要达成什么状态
以之前用它 1:1 复刻一个 SaaS 为例,写清楚要达成的状态(例如边界、要求、验证方式),就能有效让 Agent 持续自主调整和工作,例如:
你的工作是基于以下材料,在当前目录实现一个完整的、100% 兼容复刻 xyz.ai 的服务端和前端,
- 之前对 xyz.ai 的初步分析文档在 spec.md,建议的技术方案在 tech_design.md(仅供参考)
- 你需要分析 https://xyz.ai 的前端代码,参考其中的服务端 API、WebSocket API 和用法,可以有效指导你进行后端实现
要求:
1. 完整阅读文档,代码简单、可维护、正确、遵循 AGENTS.md 中的标准和要求
2. 服务端必须和 xyz.ai 完全兼容
3. 前端必须复刻 xyz.ai,保持界面和体验高度近似甚至一致(你可以自行分析 xyz.ai 进行拆解),前端需要使用 shadcn+vite+react+tailwind 实现
4. 必须有完整 end to end 测试(前端+后端)覆盖 spec 中提到的各个主要用户旅程,end to end 测试必须全部跑通
5. 必须完成服务端兼容验证,验证方式:使用官方 xyz.ai 的前端,接入你实现的后端,跑通全部 e2e 测试
6. 必须完成前端一致性验证,验证方式:使用 playwright 走一下各种主要用户路径,对比以下两种服务的渲染外观,
- 使用官方 xyz.ai 前端接入我们的后端
- 使用我们自己的前端接入我们的后端
预期上述两个服务在各个旅程下都需要有一致的呈现,包括哪些按钮可以点击、外观、文字等
重复多次 Task
虽然 CodexPotter 每轮都是全新上下文,但当前任务已有的工作记录仍会一定程度影响大模型的判断,因此对于高度复杂的任务,可以将相同的 Prompt 多安排几次任务(而非用更大的 --rounds)
实验性功能
--xmodel(一般用于编码工作):Cross Model — 先让 gpt5.2 xhigh 工作几轮,然后再用 gpt5.4 xhigh 工作剩余轮次,一般能比只用单一模型来的更有效
FAQ
如何与慢共存?
能看到这里的读者我想应该不会问出怎么让它更快的问题,毕竟慢就是好,所以还是来聊共存吧
几个方向:
- 大活在睡前再安排,早上验收,让慢不要 block 你
- 开多个 worktree 跑 CodexPotter,同时进行多项工作
- CodexPotter 是你的下属 / 同事,不要微操,不要盯着干活,(当然相比 codex 你也显著更少地需要为它擦屁股),你的注意力应当放在更高阶的工作中,例如产品规划、思考要达成什么状态、这个事情做完了接下来怎么办、定义产品的边界,……
如何 Plan + Execute
很简单,先排一个 Plan 任务,再排一个 Execute,还可以接着排更多的,上面有例子:
指令1:设计 xxx 功能,写进 plan_xx.md
指令2:按照 plan_xx.md 进行实现
指令3:检查 plan_xx.md 相关改动代码,对测试查漏补缺
指令4:对整个项目进行简化
用 Agent Team 好还是 Ralph Loop 好?
由于 CodexPotter 的特性是一定能比直接用 codex 干的更好,因此这两个范式可以既要又要 ——
对于超大型任务,先让 Agent Team 做高层任务拆解和流程管控(例如要求先详尽调研再开发、开发完做优化、代码简化、重构、测试提速),而每一个拆解后的任务则用 CodexPotter(而非 codex)进行更高质量的实施
我手上有一个 harness service 来做这项工作,不过还在持续对工作流进行调整中,敬请期待。你可以先自己简单地糊上 —— CodexPotter 支持 exec(并且会进行输出降噪),足够实现用 codex 调用 CodexPotter 了
Token 不够用怎么办?
又想要 codex 一天到晚干活又没那么多 token 我也没办法 (*  ̄︿ ̄)
网友解答:--【壹】--:
好东西啊,感觉完全符合我之前的需求。想问下这个是否可以迁移到别的工具(如claude code,opencode,kimicode),还是只能用在codex?
--【贰】--:
和superpowers一起用的话不是左脚踩右脚了,直接芜湖起飞
--【叁】--:
这是codex的包装层,还是单独的tui?,如果是单独的有没有考虑兼容其他的请求格式~
--【肆】--:
看着感觉会很好用mark一下先以后慢慢研究
--【伍】--:
谢谢佬分享,已经盘上了,看看电子牛马能干多久
--【陆】--:
感谢佬的分享,明天用一下看看,我唯一担心的是方向给我做偏了,老是喜欢自作主张的写,可能前期文档没有做完善
--【柒】--:
尝试使用一下,看上去设定任务就可以让牛马日夜不停打工啊
--【捌】--:
直接让codexdesktop安装就行了
--【玖】--:
先插个眼,学学里面的流程编排,看看是不是有一些好的思路
--【拾】--:
恨当时token用不完的时候没发现。这会古法编程就只能吃灰了,希望这几天能开到plus,好好用佬的项目去鞭策牛马
--【拾壹】--:
感谢佬的分享,非常需要支持到opencode,目前用的比较顺手。
--【拾贰】--:
我现在用的codex desktop能用这个吗?
--【拾叁】--:
superpowers 对比有什么优势呢~~
--【拾肆】--:
好好好,之前就想要一个这种的,等奥特曼啥时候再发福利了试一试,现在token得先省着点用
--【拾伍】--:
好东西,可惜现在在奥特曼砍额度的情况下,真的吃不消(
--【拾陆】--:
(帖子已被作者删除)
--【拾柒】--:
好是好啊,但是兜里的token已经捉襟见肘咯
--【拾捌】--:
标记一下,有空尝尝咸淡。现在token不像之前那么多了
--【拾玖】--:
这个和superpowers比怎么样呢!
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下全是人写的,没有 AI 废话,信息密度够高,放心阅读!
发布一个自己用了几个月的 codex 循环触发器界面 CodexPotter,它改进自 Ralph loop;个人最长压榨记录是一个窗口连续干活三天不停(并烧掉 $1000 token)、实现全自动无人值守 1:1 复刻一个 SaaS 服务:
界面和 codex 非常接近1480×1786 221 KB
以前觉得过于简单了就懒得打字发帖,结果现在仍然没有满意的替代品,所以发出来让更多人能改善一下工作流,毕竟仍然挺好用的!
用法
项目开源,可直接 npm 安装,欢迎 star:
GitHub - breezewish/CodexPotter: Ralph loop for codex — continuously reconciles...
Ralph loop for codex — continuously reconciles codebase toward your instructed state
和 codex 用法不一样的是,不要和它对话,而是给它安排任务(或需要达成什么状态),例如:
详细分析项目细节,分析技术原理,写到 analysis.md
按照 plan.md 进行完整实现
工作原理
CodexPotter 拿着你的指令对 codex 进行 Loop —— 它让 codex 按照你的指令工作,并在 codex 声称自己工作完毕后,用全新的上下文再次发起一轮又一轮相同工作的 review + fix,直到 codex 实在无事可做了再结束(或默认 10 轮上限结束)。
𝒀𝑶𝑼𝑹 𝑷𝑹𝑶𝑴𝑷𝑻:
𝘚𝘪𝘮𝘱𝘭𝘪𝘧𝘺 𝘵𝘩𝘦 𝘲𝘶𝘦𝘳𝘺 𝘦𝘯𝘨𝘪𝘯𝘦 𝘣𝘺 𝘧𝘰𝘭𝘭𝘰𝘸𝘪𝘯𝘨 ...
│
│
codex: Work or review according to MAIN.md │
┌──────────────────────────┐ │
│ │ ▼
┌─────────┴─────────┐ ┌──────────▼────────┐ ┌───────────────────┐
│ CodexPotter │ │ codex │◄─────►│ MAIN.md │
└─────────▲─────────┘ └──────────┬────────┘ └───────────────────┘
│ │
│ Work finished │
└──────────────────────────┘
特性
CodexPotter 非常克制,用几个最佳实践将循环工作(reconcile)这件事情做好,nothing more:
- 每轮都是全新的上下文 —— 保证 LLM 最高智商、且尽量尝试全新探索而非遵循已有轨迹
- 指令和进度都存在文件中 —— 从而在一轮轮的 New Context / Compact 中维持 100% 遵循你的原始指令不丢细节
- 绝不引入也许适合你项目但也许完全不适合你项目的各种佐料 prompt —— 不会规定功能开发流程,不会为你额外做 Plan 拆分、不会指导大模型如何写好 Plan、不会教如何 Simplify 代码,等等
- 你已安装的 SKILL 或相关 AGENTS.md 仍然会生效,你自己决定各个项目应该如何 Plan,如何 Code,如何 Review
最迷人的特性:几乎总是正收益
用别的 Harness / Skill 你只能玄学体感估计到底有没有用,但 CodexPotter 几乎都是正向提升
Why? 因为 CodexPotter 只做循环,其他什么佐料都不会加
第 1 轮就是 LLM 牛马拿着你的 prompt 直接执行的结果
第 2+ 轮是 CodexPotter 替你找一个全新 LLM 牛马核对任务并查漏补缺的结果
当它跑了 2 轮,3 轮 …… 甚至 10 轮,你就知道 1 轮的结果到底漏了多少东西、犯了多少错
适合做什么事情?
各种愿意用更长时间换取更高质量的场景,例如:
- 写一个比较完备的技术文档,尽可能考虑到各种边角细节(PS:记得要求输出技术文档到文件,否则第二轮都看不到第一轮写了啥)
- 一个已经确定好的功能开发,希望 codex 写高质量的代码而不需要你来来回回鞭策和研究它漏了什么
- 让它自己迭代一个晚上、对代码进行一轮又一轮性能优化
- 复刻一个 SaaS 服务 —— 这简直是大模型最擅长的工作了,从逆向接口、编码、到参考 SaaS 测试克隆下来的服务,大模型全都可以自己迭代,你唯一需要做的就是给足它时间、写清楚边界、验证条件
不适合做什么事情?
CodexPotter 并不是替代 codex,这些场景一般还是 codex 更适合:
- 简单的任务,希望快速得到结果(例如调整前端界面 指哪儿改哪儿)
- 与大模型一问一答(例如 Brainstorming)
长时间无人值守工作指南
排队
你可以为它排队一系列工作(非 Steer),每个工作都循环 N 轮后再进行下一项工作。例如排队一系列问题修复,或拆分多个步骤,让每个步骤都高质量完成:
指令1:设计 xxx 功能,写进 plan_xx.md
指令2:按照 plan_xx.md 进行实现
指令3:检查 plan_xx.md 相关改动代码,对测试查漏补缺
指令4:对整个项目进行简化
写清楚要达成什么状态
以之前用它 1:1 复刻一个 SaaS 为例,写清楚要达成的状态(例如边界、要求、验证方式),就能有效让 Agent 持续自主调整和工作,例如:
你的工作是基于以下材料,在当前目录实现一个完整的、100% 兼容复刻 xyz.ai 的服务端和前端,
- 之前对 xyz.ai 的初步分析文档在 spec.md,建议的技术方案在 tech_design.md(仅供参考)
- 你需要分析 https://xyz.ai 的前端代码,参考其中的服务端 API、WebSocket API 和用法,可以有效指导你进行后端实现
要求:
1. 完整阅读文档,代码简单、可维护、正确、遵循 AGENTS.md 中的标准和要求
2. 服务端必须和 xyz.ai 完全兼容
3. 前端必须复刻 xyz.ai,保持界面和体验高度近似甚至一致(你可以自行分析 xyz.ai 进行拆解),前端需要使用 shadcn+vite+react+tailwind 实现
4. 必须有完整 end to end 测试(前端+后端)覆盖 spec 中提到的各个主要用户旅程,end to end 测试必须全部跑通
5. 必须完成服务端兼容验证,验证方式:使用官方 xyz.ai 的前端,接入你实现的后端,跑通全部 e2e 测试
6. 必须完成前端一致性验证,验证方式:使用 playwright 走一下各种主要用户路径,对比以下两种服务的渲染外观,
- 使用官方 xyz.ai 前端接入我们的后端
- 使用我们自己的前端接入我们的后端
预期上述两个服务在各个旅程下都需要有一致的呈现,包括哪些按钮可以点击、外观、文字等
重复多次 Task
虽然 CodexPotter 每轮都是全新上下文,但当前任务已有的工作记录仍会一定程度影响大模型的判断,因此对于高度复杂的任务,可以将相同的 Prompt 多安排几次任务(而非用更大的 --rounds)
实验性功能
--xmodel(一般用于编码工作):Cross Model — 先让 gpt5.2 xhigh 工作几轮,然后再用 gpt5.4 xhigh 工作剩余轮次,一般能比只用单一模型来的更有效
FAQ
如何与慢共存?
能看到这里的读者我想应该不会问出怎么让它更快的问题,毕竟慢就是好,所以还是来聊共存吧
几个方向:
- 大活在睡前再安排,早上验收,让慢不要 block 你
- 开多个 worktree 跑 CodexPotter,同时进行多项工作
- CodexPotter 是你的下属 / 同事,不要微操,不要盯着干活,(当然相比 codex 你也显著更少地需要为它擦屁股),你的注意力应当放在更高阶的工作中,例如产品规划、思考要达成什么状态、这个事情做完了接下来怎么办、定义产品的边界,……
如何 Plan + Execute
很简单,先排一个 Plan 任务,再排一个 Execute,还可以接着排更多的,上面有例子:
指令1:设计 xxx 功能,写进 plan_xx.md
指令2:按照 plan_xx.md 进行实现
指令3:检查 plan_xx.md 相关改动代码,对测试查漏补缺
指令4:对整个项目进行简化
用 Agent Team 好还是 Ralph Loop 好?
由于 CodexPotter 的特性是一定能比直接用 codex 干的更好,因此这两个范式可以既要又要 ——
对于超大型任务,先让 Agent Team 做高层任务拆解和流程管控(例如要求先详尽调研再开发、开发完做优化、代码简化、重构、测试提速),而每一个拆解后的任务则用 CodexPotter(而非 codex)进行更高质量的实施
我手上有一个 harness service 来做这项工作,不过还在持续对工作流进行调整中,敬请期待。你可以先自己简单地糊上 —— CodexPotter 支持 exec(并且会进行输出降噪),足够实现用 codex 调用 CodexPotter 了
Token 不够用怎么办?
又想要 codex 一天到晚干活又没那么多 token 我也没办法 (*  ̄︿ ̄)
网友解答:--【壹】--:
好东西啊,感觉完全符合我之前的需求。想问下这个是否可以迁移到别的工具(如claude code,opencode,kimicode),还是只能用在codex?
--【贰】--:
和superpowers一起用的话不是左脚踩右脚了,直接芜湖起飞
--【叁】--:
这是codex的包装层,还是单独的tui?,如果是单独的有没有考虑兼容其他的请求格式~
--【肆】--:
看着感觉会很好用mark一下先以后慢慢研究
--【伍】--:
谢谢佬分享,已经盘上了,看看电子牛马能干多久
--【陆】--:
感谢佬的分享,明天用一下看看,我唯一担心的是方向给我做偏了,老是喜欢自作主张的写,可能前期文档没有做完善
--【柒】--:
尝试使用一下,看上去设定任务就可以让牛马日夜不停打工啊
--【捌】--:
直接让codexdesktop安装就行了
--【玖】--:
先插个眼,学学里面的流程编排,看看是不是有一些好的思路
--【拾】--:
恨当时token用不完的时候没发现。这会古法编程就只能吃灰了,希望这几天能开到plus,好好用佬的项目去鞭策牛马
--【拾壹】--:
感谢佬的分享,非常需要支持到opencode,目前用的比较顺手。
--【拾贰】--:
我现在用的codex desktop能用这个吗?
--【拾叁】--:
superpowers 对比有什么优势呢~~
--【拾肆】--:
好好好,之前就想要一个这种的,等奥特曼啥时候再发福利了试一试,现在token得先省着点用
--【拾伍】--:
好东西,可惜现在在奥特曼砍额度的情况下,真的吃不消(
--【拾陆】--:
(帖子已被作者删除)
--【拾柒】--:
好是好啊,但是兜里的token已经捉襟见肘咯
--【拾捌】--:
标记一下,有空尝尝咸淡。现在token不像之前那么多了
--【拾玖】--:
这个和superpowers比怎么样呢!

