【教程】别逗你xx笑了,自研模型?你上你也行!(Cursor Composer-2 训练路径分析与实战测试)
- 内容介绍
- 文章标签
- 相关推荐
综述
Cursor 发布的官方论文:Composer2.pdf
image828×466 50.3 KB
最近Cursor针对套壳Kimi的事情沸沸扬扬,之后Cursor直接通过论文的形式开放了训练过程。论坛里也有很多人在聊 Cursor 的 Composer 2的效果,作为一个练习时长两年半的大模型饲养员(bushi),也想给大家详细拆解下,让大家也可以尝试着自己训练一个~
由于domain gap(域间隙,即在一个数据集上训练模型,在另外一个数据集上进行预测性能下降很大)几乎为0,Composer 2 上线就直接把Opus 4.6按在地上摩擦(SWE-bench直接能干到 Multilingual 73.7%)当然这里指的是部分场景,Composer 2还是会过渡乱改(特别在老代码库)。
Cursor的核心思路就是:先让模型更懂代码,再把它放进真实开发环境里反复练。
Cursor 公布的数据里,Composer 2 在 CursorBench、Terminal-Bench 2.0 和 SWE-bench Multilingual 上都比前代明显提升。公开论文把这种提升归因于两件事:
1)continued pretraining(持续预训练)
先把底座继续喂大量更偏代码的数据,让模型的“代码直觉”更强。
2)reinforcement learning(强化学习)
不是只看它会不会答题,而是让它在真实 agent 式 coding 任务里学会:怎么找线索、怎么用工具、怎么少走弯路、怎么完成长任务。
这也意味着,对于一个特定领域的模型,RL确实是最佳方式。对于LoRA来说,作为finetuning的核心方法,应该叫做post-training。
综述
Cursor 发布的官方论文:Composer2.pdf
image828×466 50.3 KB
最近Cursor针对套壳Kimi的事情沸沸扬扬,之后Cursor直接通过论文的形式开放了训练过程。论坛里也有很多人在聊 Cursor 的 Composer 2的效果,作为一个练习时长两年半的大模型饲养员(bushi),也想给大家详细拆解下,让大家也可以尝试着自己训练一个~
由于domain gap(域间隙,即在一个数据集上训练模型,在另外一个数据集上进行预测性能下降很大)几乎为0,Composer 2 上线就直接把Opus 4.6按在地上摩擦(SWE-bench直接能干到 Multilingual 73.7%)当然这里指的是部分场景,Composer 2还是会过渡乱改(特别在老代码库)。
Cursor的核心思路就是:先让模型更懂代码,再把它放进真实开发环境里反复练。
Cursor 公布的数据里,Composer 2 在 CursorBench、Terminal-Bench 2.0 和 SWE-bench Multilingual 上都比前代明显提升。公开论文把这种提升归因于两件事:
1)continued pretraining(持续预训练)
先把底座继续喂大量更偏代码的数据,让模型的“代码直觉”更强。
2)reinforcement learning(强化学习)
不是只看它会不会答题,而是让它在真实 agent 式 coding 任务里学会:怎么找线索、怎么用工具、怎么少走弯路、怎么完成长任务。
这也意味着,对于一个特定领域的模型,RL确实是最佳方式。对于LoRA来说,作为finetuning的核心方法,应该叫做post-training。

