求教:如何让 CodexGemini CLI 实现长时间自动运行,摆脱一问一答?
- 内容介绍
- 文章标签
- 相关推荐
最近一直在高频使用 Codex 和 Gemini CLI,虽然的确解决了很多问题,但我发现现有的工作流越来越让人难受了。
现在的状态就是典型的一问一答:我得不停地盯着屏幕,提需求 → 等输出 → 复制粘贴 → 遇到报错再手动把日志贴回去。
我希望 CLI 工具能自己在后台持续干活。比如我丢给它一个大点的需求,它能不能自己去拆分需求,生成代码,甚至自己跑一下看报不报错,报错了自己消化日志接着改?
我看到网上有些大佬已经实现了让这些基础 CLI 工具长期、自动运行的效果,完全不需要人肉做监工。但是实在是苦于不知道如何选择哪一个方式来整合我当前的工作流实现自动化.
本身当前我们内部是存在git的.其实可以实现回滚.看到openclaw的仓库那种全自动提交其实很心水
但是比如就前端而言,我们目前用ionic+vue写app,前端是否遵循了UIUX规范,这个问题其实也很难让AI进行评估,毕竟设计稿都没有..纯纯靠人工检查是否符合需求
就后端而言,我们比较经常遇到ai不太遵守提示词比如我们要驼峰命名而ai的命名非常随心所欲
我当前的工作流主要是@我们预设好的prompt.md里面描述了我们的UI UX规范,以及后端定义规范.但是这样依然只能一问一答非常不优雅
想请教下各位,这种长线的自动化工作流具体是怎么落地的?
有没有什么踩过坑的经验或者现成的方案可以抄抄作业?提前谢过!
网友解答:--【壹】--:
我自己做一些小项目的时候会让agent全程接管设计迭代,最简单的就是用一个shell里的无限循环让agent一直跑,虽然质量难以保证但至少够持久哈哈
可以参考我这个:dotfiles/scripts/continuous-run at master · inmzhang/dotfiles · GitHub
--【贰】--:
大佬,这个想法非常好,只是我的本地开发机内存不足。。。。
--【叁】--:
感谢大佬回复,我来参考一下
--【肆】--:
没有能支撑长线运行的模型基础建设,即便有了自动压缩也不可能无人值守,你看到有人实现了,那是因为,视频能剪辑,文章能杜撰,鬼知道他失败了多少次
Codex CLI、Gemini CLI 都是些自动化编程工具,怎么你还要手动粘贴,他自己不就把代码改了吗
至于纠错,调试就不用想了,你唯一能做的就是要求他最后必须编译成功,或者写非交互式的单元测试脚本
--【伍】--: zzz:
ohmycodex
是吧看起来还是本质问题出现在上下文幻觉问题…
--【陆】--:
去找插件呗,cc我用过那个omc插件,他能通过接管hook方式强制长时间运行,cx不知道,cx本身就具备长时间运行能力,那个作者也有个ohmycodex可以看看
--【柒】--:
嘶
佬,那你别搞虚拟机也行,那就是怕小龙虾瞎干,如果命令要一条一条审核那确实还不如直接codex了
内存是个好东西
--【捌】--:
感谢大佬分享,我来阅读一下
--【玖】--:
感谢大佬,我去试试
--【拾】--:
我有一个想法,其实和ohmyopencode类似
就是搞个虚拟机(为了安全)openclaw里面设置多Agent,一个主Agent负责干活儿,还有负责测试,再加上监工
上下文那就没办法了,幻觉就幻觉吧,我感觉有介入的情况下上下文长一点也还好
再加上openclaw本身就可以有空去看看干的怎么样了
目前我的openclaw是这么配置的,但是说实话真干活儿还是codex直接干的
--【拾壹】--:
关键词应该如何搜索~虽然听起来比较伸手党,但是我的确不知道应该搜索哪个关键词….另外按照大佬说的,看起来应该是用过类似的东西了?主要遇到的问题在哪?
--【拾贰】--:
试试 openspec的skill 虽然我没怎么用过 但是看起来他对于长时间运行有效果的 比plan更加完善 大上下文确实会降智严重 因为压缩后的上下文还是会丢失信息的
--【拾叁】--:
不用什么特殊处理吗 你给他制定plan 只要plan完善他就是可以一直干啊 干个一两小时很正常的
--【拾肆】--:
虽然我之前没用过这个工具,但我也试过让AI先帮我写to‑do list,再让它完成,效果不太好。
但是我想试试大佬分享的这个工具,也许只是我之前的方法不正确
--【拾伍】--:
标准答案就是ralph loop的各种实现。本质上就是提前准备好todo list,然后强迫全部执行完成。
可以参考
GitHub - snarktank/ralph: Ralph is an autonomous AI agent loop that runs...
Ralph is an autonomous AI agent loop that runs repeatedly until all PRD items are complete.
GitHub - humania-org/humanize: LLM IS AS GOOD AS YOU ARE
LLM IS AS GOOD AS YOU ARE
--【拾陆】--:
好像看见过这个佬友的帖子,不知道对你有没有用
https://linux.do/t/topic/1312744/337
--【拾柒】--:
好像有个佬弄过一个工作流 但是 还是会有问题 你可以搜一下
--【拾捌】--:
确保编译成功可以作为检验标准,但即使编译成功,我仍觉得可能会有问题:
比如我在原帖提到,作为前端因为没有设计稿,AI生成的所使用的前端组件可能随意。虽然我明白网上的视频不能作为参考,但在论坛里看到很多大佬实现了比我描述的更进一步的自动化,也是我想请教的重点
--【拾玖】--:
我觉得用起来还是很奇怪,Codex里确实有Plan功能,我知道也尝试过
但我也有些担忧,现在如果上下文太长会影响输出质量,所以我通常会完成一个任务后重新开启聊天。我不确定这是不是坏习惯,也不清楚该怎么正确使用
最近一直在高频使用 Codex 和 Gemini CLI,虽然的确解决了很多问题,但我发现现有的工作流越来越让人难受了。
现在的状态就是典型的一问一答:我得不停地盯着屏幕,提需求 → 等输出 → 复制粘贴 → 遇到报错再手动把日志贴回去。
我希望 CLI 工具能自己在后台持续干活。比如我丢给它一个大点的需求,它能不能自己去拆分需求,生成代码,甚至自己跑一下看报不报错,报错了自己消化日志接着改?
我看到网上有些大佬已经实现了让这些基础 CLI 工具长期、自动运行的效果,完全不需要人肉做监工。但是实在是苦于不知道如何选择哪一个方式来整合我当前的工作流实现自动化.
本身当前我们内部是存在git的.其实可以实现回滚.看到openclaw的仓库那种全自动提交其实很心水
但是比如就前端而言,我们目前用ionic+vue写app,前端是否遵循了UIUX规范,这个问题其实也很难让AI进行评估,毕竟设计稿都没有..纯纯靠人工检查是否符合需求
就后端而言,我们比较经常遇到ai不太遵守提示词比如我们要驼峰命名而ai的命名非常随心所欲
我当前的工作流主要是@我们预设好的prompt.md里面描述了我们的UI UX规范,以及后端定义规范.但是这样依然只能一问一答非常不优雅
想请教下各位,这种长线的自动化工作流具体是怎么落地的?
有没有什么踩过坑的经验或者现成的方案可以抄抄作业?提前谢过!
网友解答:--【壹】--:
我自己做一些小项目的时候会让agent全程接管设计迭代,最简单的就是用一个shell里的无限循环让agent一直跑,虽然质量难以保证但至少够持久哈哈
可以参考我这个:dotfiles/scripts/continuous-run at master · inmzhang/dotfiles · GitHub
--【贰】--:
大佬,这个想法非常好,只是我的本地开发机内存不足。。。。
--【叁】--:
感谢大佬回复,我来参考一下
--【肆】--:
没有能支撑长线运行的模型基础建设,即便有了自动压缩也不可能无人值守,你看到有人实现了,那是因为,视频能剪辑,文章能杜撰,鬼知道他失败了多少次
Codex CLI、Gemini CLI 都是些自动化编程工具,怎么你还要手动粘贴,他自己不就把代码改了吗
至于纠错,调试就不用想了,你唯一能做的就是要求他最后必须编译成功,或者写非交互式的单元测试脚本
--【伍】--: zzz:
ohmycodex
是吧看起来还是本质问题出现在上下文幻觉问题…
--【陆】--:
去找插件呗,cc我用过那个omc插件,他能通过接管hook方式强制长时间运行,cx不知道,cx本身就具备长时间运行能力,那个作者也有个ohmycodex可以看看
--【柒】--:
嘶
佬,那你别搞虚拟机也行,那就是怕小龙虾瞎干,如果命令要一条一条审核那确实还不如直接codex了
内存是个好东西
--【捌】--:
感谢大佬分享,我来阅读一下
--【玖】--:
感谢大佬,我去试试
--【拾】--:
我有一个想法,其实和ohmyopencode类似
就是搞个虚拟机(为了安全)openclaw里面设置多Agent,一个主Agent负责干活儿,还有负责测试,再加上监工
上下文那就没办法了,幻觉就幻觉吧,我感觉有介入的情况下上下文长一点也还好
再加上openclaw本身就可以有空去看看干的怎么样了
目前我的openclaw是这么配置的,但是说实话真干活儿还是codex直接干的
--【拾壹】--:
关键词应该如何搜索~虽然听起来比较伸手党,但是我的确不知道应该搜索哪个关键词….另外按照大佬说的,看起来应该是用过类似的东西了?主要遇到的问题在哪?
--【拾贰】--:
试试 openspec的skill 虽然我没怎么用过 但是看起来他对于长时间运行有效果的 比plan更加完善 大上下文确实会降智严重 因为压缩后的上下文还是会丢失信息的
--【拾叁】--:
不用什么特殊处理吗 你给他制定plan 只要plan完善他就是可以一直干啊 干个一两小时很正常的
--【拾肆】--:
虽然我之前没用过这个工具,但我也试过让AI先帮我写to‑do list,再让它完成,效果不太好。
但是我想试试大佬分享的这个工具,也许只是我之前的方法不正确
--【拾伍】--:
标准答案就是ralph loop的各种实现。本质上就是提前准备好todo list,然后强迫全部执行完成。
可以参考
GitHub - snarktank/ralph: Ralph is an autonomous AI agent loop that runs...
Ralph is an autonomous AI agent loop that runs repeatedly until all PRD items are complete.
GitHub - humania-org/humanize: LLM IS AS GOOD AS YOU ARE
LLM IS AS GOOD AS YOU ARE
--【拾陆】--:
好像看见过这个佬友的帖子,不知道对你有没有用
https://linux.do/t/topic/1312744/337
--【拾柒】--:
好像有个佬弄过一个工作流 但是 还是会有问题 你可以搜一下
--【拾捌】--:
确保编译成功可以作为检验标准,但即使编译成功,我仍觉得可能会有问题:
比如我在原帖提到,作为前端因为没有设计稿,AI生成的所使用的前端组件可能随意。虽然我明白网上的视频不能作为参考,但在论坛里看到很多大佬实现了比我描述的更进一步的自动化,也是我想请教的重点
--【拾玖】--:
我觉得用起来还是很奇怪,Codex里确实有Plan功能,我知道也尝试过
但我也有些担忧,现在如果上下文太长会影响输出质量,所以我通常会完成一个任务后重新开启聊天。我不确定这是不是坏习惯,也不清楚该怎么正确使用

