【自荐】CodexPotter:让 codex 连续工作一天不要停

2026-04-13 12:011阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下全是人写的,没有 AI 废话,信息密度够高,放心阅读!


发布一个自己用了几个月的 codex 循环触发器界面 CodexPotter,它改进自 Ralph loop;个人最长压榨记录是一个窗口连续干活三天不停(并烧掉 $1000 token)、实现全自动无人值守 1:1 复刻一个 SaaS 服务:

界面和 codex 非常接近1480×1786 221 KB

以前觉得过于简单了就懒得打字发帖,结果现在仍然没有满意的替代品,所以发出来让更多人能改善一下工作流,毕竟仍然挺好用的!

用法

项目开源,可直接 npm 安装,欢迎 star:

github.com

GitHub - breezewish/CodexPotter: Ralph loop for codex — continuously reconciles...

Ralph loop for codex — continuously reconciles codebase toward your instructed state

和 codex 用法不一样的是,不要和它对话,而是给它安排任务(或需要达成什么状态),例如:

详细分析项目细节,分析技术原理,写到 analysis.md

按照 plan.md 进行完整实现

工作原理

CodexPotter 拿着你的指令对 codex 进行 Loop —— 它让 codex 按照你的指令工作,并在 codex 声称自己工作完毕后,用全新的上下文再次发起一轮又一轮相同工作的 review + fix,直到 codex 实在无事可做了再结束(或默认 10 轮上限结束)。

𝒀𝑶𝑼𝑹 𝑷𝑹𝑶𝑴𝑷𝑻: 𝘚𝘪𝘮𝘱𝘭𝘪𝘧𝘺 𝘵𝘩𝘦 𝘲𝘶𝘦𝘳𝘺 𝘦𝘯𝘨𝘪𝘯𝘦 𝘣𝘺 𝘧𝘰𝘭𝘭𝘰𝘸𝘪𝘯𝘨 ... │ │ codex: Work or review according to MAIN.md │ ┌──────────────────────────┐ │ │ │ ▼ ┌─────────┴─────────┐ ┌──────────▼────────┐ ┌───────────────────┐ │ CodexPotter │ │ codex │◄─────►│ MAIN.md │ └─────────▲─────────┘ └──────────┬────────┘ └───────────────────┘ │ │ │ Work finished │ └──────────────────────────┘

特性

CodexPotter 非常克制,用几个最佳实践将循环工作(reconcile)这件事情做好,nothing more:

  • 每轮都是全新的上下文 —— 保证 LLM 最高智商、且尽量尝试全新探索而非遵循已有轨迹
  • 指令和进度都存在文件中 —— 从而在一轮轮的 New Context / Compact 中维持 100% 遵循你的原始指令不丢细节
  • 绝不引入也许适合你项目但也许完全不适合你项目的各种佐料 prompt —— 不会规定功能开发流程,不会为你额外做 Plan 拆分、不会指导大模型如何写好 Plan、不会教如何 Simplify 代码,等等
  • 你已安装的 SKILL 或相关 AGENTS.md 仍然会生效,你自己决定各个项目应该如何 Plan,如何 Code,如何 Review

最迷人的特性:几乎总是正收益

用别的 Harness / Skill 你只能玄学体感估计到底有没有用,但 CodexPotter 几乎都是正向提升

Why? 因为 CodexPotter 只做循环,其他什么佐料都不会加

第 1 轮就是 LLM 牛马拿着你的 prompt 直接执行的结果

第 2+ 轮是 CodexPotter 替你找一个全新 LLM 牛马核对任务并查漏补缺的结果

当它跑了 2 轮,3 轮 …… 甚至 10 轮,你就知道 1 轮的结果到底漏了多少东西、犯了多少错

适合做什么事情?

各种愿意用更长时间换取更高质量的场景,例如:

  • 写一个比较完备的技术文档,尽可能考虑到各种边角细节(PS:记得要求输出技术文档到文件,否则第二轮都看不到第一轮写了啥)
  • 一个已经确定好的功能开发,希望 codex 写高质量的代码而不需要你来来回回鞭策和研究它漏了什么
  • 让它自己迭代一个晚上、对代码进行一轮又一轮性能优化
  • 复刻一个 SaaS 服务 —— 这简直是大模型最擅长的工作了,从逆向接口、编码、到参考 SaaS 测试克隆下来的服务,大模型全都可以自己迭代,你唯一需要做的就是给足它时间、写清楚边界、验证条件

不适合做什么事情?

CodexPotter 并不是替代 codex,这些场景一般还是 codex 更适合:

  • 简单的任务,希望快速得到结果(例如调整前端界面 指哪儿改哪儿)
  • 与大模型一问一答(例如 Brainstorming)

长时间无人值守工作指南

排队

你可以为它排队一系列工作(非 Steer),每个工作都循环 N 轮后再进行下一项工作。例如排队一系列问题修复,或拆分多个步骤,让每个步骤都高质量完成:

指令1:设计 xxx 功能,写进 plan_xx.md 指令2:按照 plan_xx.md 进行实现 指令3:检查 plan_xx.md 相关改动代码,对测试查漏补缺 指令4:对整个项目进行简化

写清楚要达成什么状态

以之前用它 1:1 复刻一个 SaaS 为例,写清楚要达成的状态(例如边界、要求、验证方式),就能有效让 Agent 持续自主调整和工作,例如:

你的工作是基于以下材料,在当前目录实现一个完整的、100% 兼容复刻 xyz.ai 的服务端和前端, - 之前对 xyz.ai 的初步分析文档在 spec.md,建议的技术方案在 tech_design.md(仅供参考) - 你需要分析 https://xyz.ai 的前端代码,参考其中的服务端 API、WebSocket API 和用法,可以有效指导你进行后端实现 要求: 1. 完整阅读文档,代码简单、可维护、正确、遵循 AGENTS.md 中的标准和要求 2. 服务端必须和 xyz.ai 完全兼容 3. 前端必须复刻 xyz.ai,保持界面和体验高度近似甚至一致(你可以自行分析 xyz.ai 进行拆解),前端需要使用 shadcn+vite+react+tailwind 实现 4. 必须有完整 end to end 测试(前端+后端)覆盖 spec 中提到的各个主要用户旅程,end to end 测试必须全部跑通 5. 必须完成服务端兼容验证,验证方式:使用官方 xyz.ai 的前端,接入你实现的后端,跑通全部 e2e 测试 6. 必须完成前端一致性验证,验证方式:使用 playwright 走一下各种主要用户路径,对比以下两种服务的渲染外观, - 使用官方 xyz.ai 前端接入我们的后端 - 使用我们自己的前端接入我们的后端 预期上述两个服务在各个旅程下都需要有一致的呈现,包括哪些按钮可以点击、外观、文字等

重复多次 Task

虽然 CodexPotter 每轮都是全新上下文,但当前任务已有的工作记录仍会一定程度影响大模型的判断,因此对于高度复杂的任务,可以将相同的 Prompt 多安排几次任务(而非用更大的 --rounds)

实验性功能

  • --xmodel (一般用于编码工作):Cross Model — 先让 gpt5.2 xhigh 工作几轮,然后再用 gpt5.4 xhigh 工作剩余轮次,一般能比只用单一模型来的更有效

FAQ

如何与慢共存?

能看到这里的读者我想应该不会问出怎么让它更快的问题,毕竟慢就是好,所以还是来聊共存吧

几个方向:

  • 大活在睡前再安排,早上验收,让慢不要 block 你
  • 开多个 worktree 跑 CodexPotter,同时进行多项工作
  • CodexPotter 是你的下属 / 同事,不要微操,不要盯着干活,(当然相比 codex 你也显著更少地需要为它擦屁股),你的注意力应当放在更高阶的工作中,例如产品规划、思考要达成什么状态、这个事情做完了接下来怎么办、定义产品的边界,……

如何 Plan + Execute

很简单,先排一个 Plan 任务,再排一个 Execute,还可以接着排更多的,上面有例子:

指令1:设计 xxx 功能,写进 plan_xx.md 指令2:按照 plan_xx.md 进行实现 指令3:检查 plan_xx.md 相关改动代码,对测试查漏补缺 指令4:对整个项目进行简化

用 Agent Team 好还是 Ralph Loop 好?

由于 CodexPotter 的特性是一定能比直接用 codex 干的更好,因此这两个范式可以既要又要 ——

对于超大型任务,先让 Agent Team 做高层任务拆解和流程管控(例如要求先详尽调研再开发、开发完做优化、代码简化、重构、测试提速),而每一个拆解后的任务则用 CodexPotter(而非 codex)进行更高质量的实施

我手上有一个 harness service 来做这项工作,不过还在持续对工作流进行调整中,敬请期待。你可以先自己简单地糊上 —— CodexPotter 支持 exec(并且会进行输出降噪),足够实现用 codex 调用 CodexPotter 了

Token 不够用怎么办?

又想要 codex 一天到晚干活又没那么多 token 我也没办法 (*  ̄︿ ̄)

网友解答:
--【壹】--:

好东西啊,感觉完全符合我之前的需求。想问下这个是否可以迁移到别的工具(如claude code,opencode,kimicode),还是只能用在codex?


--【贰】--:

和superpowers一起用的话不是左脚踩右脚了,直接芜湖起飞


--【叁】--:

这是codex的包装层,还是单独的tui?,如果是单独的有没有考虑兼容其他的请求格式~


--【肆】--:

看着感觉会很好用mark一下先以后慢慢研究


--【伍】--:

谢谢佬分享,已经盘上了,看看电子牛马能干多久


--【陆】--:

感谢佬的分享,明天用一下看看,我唯一担心的是方向给我做偏了,老是喜欢自作主张的写,可能前期文档没有做完善


--【柒】--:

尝试使用一下,看上去设定任务就可以让牛马日夜不停打工啊


--【捌】--:

直接让codexdesktop安装就行了


--【玖】--:

先插个眼,学学里面的流程编排,看看是不是有一些好的思路


--【拾】--:

恨当时token用不完的时候没发现。这会古法编程就只能吃灰了,希望这几天能开到plus,好好用佬的项目去鞭策牛马


--【拾壹】--:

感谢佬的分享,非常需要支持到opencode,目前用的比较顺手。


--【拾贰】--:

我现在用的codex desktop能用这个吗?


--【拾叁】--:

superpowers 对比有什么优势呢~~


--【拾肆】--:

好好好,之前就想要一个这种的,等奥特曼啥时候再发福利了试一试,现在token得先省着点用


--【拾伍】--:

好东西,可惜现在在奥特曼砍额度的情况下,真的吃不消(


--【拾陆】--:

(帖子已被作者删除)


--【拾柒】--:

好是好啊,但是兜里的token已经捉襟见肘咯


--【拾捌】--:

标记一下,有空尝尝咸淡。现在token不像之前那么多了


--【拾玖】--:

这个和superpowers比怎么样呢!