autoresearch发布一个月后,社区把它的边界扩展到了哪里
- 内容介绍
- 文章标签
- 相关推荐
给 AI 一个最小闭环,它能走多远
autoresearch 发布一个月后,社区把它的边界推到了哪里
在 karpathy/autoresearch 刚开源出来时,我也试着把它迁到一个 auto-flappy-bird 的小场景里。跑了十几轮以后,训练出来的模型已经可以比较稳定地飞过 20 多个管道。
但我很快意识到,是它不仅能迁到一个强化学习任务里,而是它把“有对象、有评测、有预算、可回滚”的最小闭环压得足够小。小到你会自然开始追问:这套东西还能被用到哪里去?
现在一个多月过去了,社区里冒出来一批 fork、讨论和衍生项目。我回过头重新看这批东西时,忽然注意到,autoresearch 精神最浓缩的表达,其实就是原实验思路提示词里的:
[!important]
NEVER STOP : Once …
我后来越看越觉得,社区过去一个月里真正值得看的那些探索,几乎都在回答同一个问题:
怎样让一个每几分钟就会停下来的实验,尽可能长成一个不会停下来的研究系统。
这也是为什么我现在不太想再写“autoresearch 是什么”。大家差不多都知道了。现在更值得追踪的是,一个月过去,社区到底把这套东西扩展到了哪里。
先说原点:autoresearch 为什么会火
autoresearch 原版其实很小。人写实验思路提示词 program.md,agent 改算法 train.py,而 prepare.py 负责数据和评估,agent 不能碰。每轮实验给固定预算,跑完看分数,决定 keep 还是 revert,然后继续下一轮。
从代码结构上看,它并不复杂。
但它第一次把一件事压缩得非常清楚:局部可改对象、固定评测、固定预算、可回滚。
给 AI 一个最小闭环,它能走多远
autoresearch 发布一个月后,社区把它的边界推到了哪里
在 karpathy/autoresearch 刚开源出来时,我也试着把它迁到一个 auto-flappy-bird 的小场景里。跑了十几轮以后,训练出来的模型已经可以比较稳定地飞过 20 多个管道。
但我很快意识到,是它不仅能迁到一个强化学习任务里,而是它把“有对象、有评测、有预算、可回滚”的最小闭环压得足够小。小到你会自然开始追问:这套东西还能被用到哪里去?
现在一个多月过去了,社区里冒出来一批 fork、讨论和衍生项目。我回过头重新看这批东西时,忽然注意到,autoresearch 精神最浓缩的表达,其实就是原实验思路提示词里的:
[!important]
NEVER STOP : Once …
我后来越看越觉得,社区过去一个月里真正值得看的那些探索,几乎都在回答同一个问题:
怎样让一个每几分钟就会停下来的实验,尽可能长成一个不会停下来的研究系统。
这也是为什么我现在不太想再写“autoresearch 是什么”。大家差不多都知道了。现在更值得追踪的是,一个月过去,社区到底把这套东西扩展到了哪里。
先说原点:autoresearch 为什么会火
autoresearch 原版其实很小。人写实验思路提示词 program.md,agent 改算法 train.py,而 prepare.py 负责数据和评估,agent 不能碰。每轮实验给固定预算,跑完看分数,决定 keep 还是 revert,然后继续下一轮。
从代码结构上看,它并不复杂。
但它第一次把一件事压缩得非常清楚:局部可改对象、固定评测、固定预算、可回滚。

