The AI Scientist-v2 过了 ICLR workshop 盲审,但更值得讨论的是:自动化科研 pipeline 到底走到了哪一步?
- 内容介绍
- 文章标签
- 相关推荐
Sakana AI 的 AI Scientist-v2 这个项目最近正式发了 Nature 论文,标题是 Towards end-to-end automation of AI research。它干的事情是把 3 篇完全由 AI 端到端生成的论文(从 idea、文献检索、写代码跑实验、画图分析到写完整稿子,全程无人修改)投到了 ICLR 2025 的 ICBINB workshop。审稿人事先被告知有少量稿件可能是 AI 生成的,但不知道具体是哪篇,也可以选择 opt out。结果 3 篇里有 1 篇拿到了 6/7/6(均分 6.33),按 Sakana 官方博客的说法,这个分数高于该 workshop 的 average acceptance threshold。
不过有几个背景得说清楚:这是 workshop 不是 ICLR 主会,workshop 的 acceptance rate 大概 60–70%,跟主会 20–30% 差很远;Sakana 团队自己内部也评估过,认为三篇都没达到主会水平;所有 AI 生成的投稿按照预先设定的实验协议,在评审结束后都主动撤回了,不存在"被退稿"的说法。GitHub 上有两个 repo,v1 更依赖固定 template 做特定方向的研究,v2 走的是 template-free 路线,用 agentic tree search 做更开放的探索,不过 v2 也不是所有场景下都比 v1 好。
这条 pipeline 本身——idea → 文献检索 → 代码 → 实验 → 写作,这整个链路到底跑到了什么程度。有没有佬友真拿这两个 repo 跑过的?让它完全自主折腾一轮下来,出来的东西大概是什么水平?
相关链接:
Nature 正式论文:Towards end-to-end automation of AI research | Nature
Sakana 官方博客:The AI Scientist Generates its First Peer-Reviewed Scientific Publication
AI-Scientist(v1):GitHub - SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬 · GitHub
AI-Scientist-v2:GitHub - SakanaAI/AI-Scientist-v2: The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search · GitHub
--【壹】--:
我写过一个全流程论文创作的skill,思路和它惊人得一致。我的思路是既然写代码可以有TDD开发范式,那么写论文也可以有它的TDD,不过这里的Test是指一个作为评委专家的subagent。 我在实验过程中遇到的最大难点是模型上下文不足导致的注意力缺失,这个问题的解决方案我认为要参考最近很火的harness了,AI应该掌握创造的主导权,我们只加入方向性的脚手架限制。
--【贰】--:
哇哦,我记得这是transformer团队出来的
Sakana AI 的 AI Scientist-v2 这个项目最近正式发了 Nature 论文,标题是 Towards end-to-end automation of AI research。它干的事情是把 3 篇完全由 AI 端到端生成的论文(从 idea、文献检索、写代码跑实验、画图分析到写完整稿子,全程无人修改)投到了 ICLR 2025 的 ICBINB workshop。审稿人事先被告知有少量稿件可能是 AI 生成的,但不知道具体是哪篇,也可以选择 opt out。结果 3 篇里有 1 篇拿到了 6/7/6(均分 6.33),按 Sakana 官方博客的说法,这个分数高于该 workshop 的 average acceptance threshold。
不过有几个背景得说清楚:这是 workshop 不是 ICLR 主会,workshop 的 acceptance rate 大概 60–70%,跟主会 20–30% 差很远;Sakana 团队自己内部也评估过,认为三篇都没达到主会水平;所有 AI 生成的投稿按照预先设定的实验协议,在评审结束后都主动撤回了,不存在"被退稿"的说法。GitHub 上有两个 repo,v1 更依赖固定 template 做特定方向的研究,v2 走的是 template-free 路线,用 agentic tree search 做更开放的探索,不过 v2 也不是所有场景下都比 v1 好。
这条 pipeline 本身——idea → 文献检索 → 代码 → 实验 → 写作,这整个链路到底跑到了什么程度。有没有佬友真拿这两个 repo 跑过的?让它完全自主折腾一轮下来,出来的东西大概是什么水平?
相关链接:
Nature 正式论文:Towards end-to-end automation of AI research | Nature
Sakana 官方博客:The AI Scientist Generates its First Peer-Reviewed Scientific Publication
AI-Scientist(v1):GitHub - SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬 · GitHub
AI-Scientist-v2:GitHub - SakanaAI/AI-Scientist-v2: The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search · GitHub
--【壹】--:
我写过一个全流程论文创作的skill,思路和它惊人得一致。我的思路是既然写代码可以有TDD开发范式,那么写论文也可以有它的TDD,不过这里的Test是指一个作为评委专家的subagent。 我在实验过程中遇到的最大难点是模型上下文不足导致的注意力缺失,这个问题的解决方案我认为要参考最近很火的harness了,AI应该掌握创造的主导权,我们只加入方向性的脚手架限制。
--【贰】--:
哇哦,我记得这是transformer团队出来的

