[论文随笔分享] 探索拓展大语言模型智能体的边界
- 内容介绍
- 文章标签
- 相关推荐
受到 @bfloat16 佬的启发,个人决定开一个笔记分享系列,一方面是促进自己阅读论文的动力,希望每次阅读时,能够细心一些分析有价值的论文,并将这些感悟记录下来,留给有需要的佬友。另一方面是希望与佬们交流见闻,促进自己的视野。本论文分享系列会持续更新,聚焦LLM/Agentic/CV方向的论文。
0.元信息
论文标题:Expanding LLM Agent Boundaries with Strategy-Guided Exploration
单位:苹果
原始论文:[2603.02045] Expanding LLM Agent Boundaries with Strategy-Guided Exploration
1.前言
本文提出了一种可插拔式的方法,基于GRPO进行实验,因此可以视为对GRPO的改进,但也可应用于其他RL方法。其主要针对策略模型的采样阶段,不涉及奖励函数部分。该方法能够根据本轮的轨迹情况,将反馈引入下一轮,从而改变采样阶段的行为,这一理念较为新颖有趣。
过往已有类似的生成温度调节和采样阶段设计,但本文的设计更为灵活简洁;此外,其聚焦于Agentic场景的应用效果,领域也更为新颖。本文的方法图质量实在是不尽人意,实在过于模糊,论文整体可视化做得也比较差,难以相信出自苹果之手…虽然近年来苹果的论文质量确实有些一般就是了。
2.问题
本文聚焦于解决传统RL方法在LLM后训练中探索能力匮乏的问题。简单来说,我们在进行RL后训练时,期望模型找到一条最佳的采样路径,但受限于奖励函数的设计缺陷与复杂的决策空间,这通常很难实现。
在奖励函数方面,我们常常面临奖励过于稀疏的问题,例如分类正确性奖励仅反馈0或1,对应正确与否,那么不同的探索路径也只会得到0/1的优势差异。当组间优势差异过低时,便会产生优势消失问题,模型容易陷入优化困难的局面,难以积极探索新的路径。
3.动机
作者注意到,单纯改变生成温度来引入多样性,在Agentic交互中效果不佳。原因在于,虽然温度改变了模型的交互坐标,但其决策本身并未变化——例如点击的仍是同一个按钮,只是坐标位置不同,并未发生决策层面的改变。这意味着,统一的温度调整对于强化微调模型而言并不会带来本质性的改变。
4.方法
本文主要提出了两个核心模块:一个是SGE(Strategy-Guided Exploration),即基于策略引导的探索机制;另一个是混合温度采样(Mixed-Temperature Sampling)。
image994×382 92.9 KB
从架构图来看并不十分清晰,为便于理解,我将其拆为两部分讨论:SGE如何实现,以及混合温度采样如何集成在SGE中。
4.1 GRPO预备知识
由于找不到比较好的图来辅助理解,这里借用了GRPO-CARE的架构图来说明SGE引入的改动。本质上,我们关注的是GRPO的四个阶段:输入数据→生成策略→奖励验证→组内优势。
image1386×840 163 KB
为不了解GRPO的读者简单介绍一下:
输入数据后,策略模型会生成对应的回答,这一阶段属于采样阶段,通常是一个问题生成8个回答。这8个回答因温度设置而存在差异,该差异决定了样本的正确与否。
生成的8个样本会进入验证器(即设定的奖励函数),判断每个样本的生成质量。简单来说,奖励阶段可以给予二分类评判(对/错),对给1分、错给0分,这就是标准的稀疏奖励,当然也可以引入其他设计。如此,每个样本便有一个对应的分数。
当这些样本进入优势计算阶段时,8个样本同属一组,GRPO将计算组内差异。其中涉及较为复杂的计算,但简单理解就是:对8个样本取平均,然后以平均值(如0.5)为界进行分类,低于平均值的作为负样本,高于平均值的作为正样本,由此计算损失值。
GRPO的目标是通过这一方式使所有样本都趋近正样本,而这一优化目标依赖于组内差异,即只有在理想情况下,平均值才能通过优化不断上浮。如果8个样本给出了相近的分数,这一机制便会失效,产生优势消失现象。简单来说,当所有样本的得分都是0.8时,就无法继续有效优化了。
4.2 SGE
本文提出的SGE方法带来了一些变化(原谅我的鼠绘):
image1851×787 146 KB
SGE将上一轮的策略引入到下一轮的生成当中。黄色区域代表上一轮的采样阶段,我们可以从中获知哪些样本成功、哪些失败。这些样本除了仍按GRPO标准范式计算损失外,还会被收集到一个CS集合中,该集合将在下一轮的生成中作为输入。
在下一轮中,除了输入用户数据(即正常的问题)外,还会将CS集合中的数据一并输入,并利用预设的提示词进行拼接。论文定义的提示词如下:
Strategy prompt: First give a strategy of how to solve the question after “### Strategy”. Then
write the code to solve the question based on the strategy and question in “### Code”.
• Positive reflection prompt: First give a strategy of how to solve the question after “### Strategy”
inspired by this successful strategy.{strats} Then write the code to solve the question based
on the strategy and question in “### Code”.
• Negative reflection prompt: First, after “### Strategy” critique the failed strategy and how
it can be fixed. Be precise. Then address this critique by writing a better strategy. Make
sure the strategy is detailed, and the code is easy to implement from the strategy. {strats}
Then write the code to solve the question based on the strategy and question in “### Code”.
简单来说,就是告诉下一轮的策略模型:上一轮中哪些成功了、哪些失败了,成功的是怎么回答的、失败的是怎么回答的。由此,策略模型在生成新一轮回答之前,可以修正其潜在的错误生成。新的生成位于绿色区域。整体反馈思路简单,也很好理解。
4.3 mixed-temperature sampling
混合温度采样指的是,不同阶段的token采用不同的温度。在本文设计中,采样部分使用高温度(1.2),其他情况下使用低温度(0.6)。
image730×680 37 KB
具体而言,本文将不同阶段的token显式划分为策略(Strategy)Token、Action Token等,以此控制不同阶段的生成温度,而这些都发生在采样阶段。此处一个容易混淆的点是:
image920×741 112 KB
本文的温度控制发生在策略模型输出回答时,控制方式则是根据回答内容中的标签显式定义的——即被 <Strategy> 包裹的部分为高温度部分,其余则为低温度。
5.实验
本文分别使用了Qwen3-4B-Instruct(Code),Qwen3-8B-Reasoning(AppWorld)和Qwen2.5-VL-3B(Android World)作为骨干,进行了测试,比较了训练收敛情况:
image1277×439 141 KB
以及与GRPO基准进行比较的未见域任务测试:
image831×536 88.3 KB
6.结语
本文探究了一种有趣的优化方法,通过引入采样阶段的反馈机制,以及修改生成策略时,针对策略部分token的温度调节,提升了模型的探索能力。
整体不算复杂,工程性的内容偏多,比较有趣,尤其是温度控制部分值得实践尝试。
网友解答:--【壹】--:
我说个实话,一字不漏全看完了,但是看完之后感觉自己好像没看一样。。。
--【贰】--:
拜读一下
--【叁】--:
我说个实话,一字不漏全看完了,但是看完之后感觉自己好像没看过一样。。。
--【肆】--:
怎么这样
下次写的再简单点,这篇还是有点偏策略优化了,理解起来有点繁琐
--【伍】--:
Apple的论文…挺好挺好
之前seed也有篇控温的,感觉make sense
--【陆】--:
seed的文章也有意思,之前读过一篇他们的VST,关注Agentic自身调用能力的,也很有趣
不过seed跟Apple一样,写论文不知道为什么写的都很工程,读起来很难受(
受到 @bfloat16 佬的启发,个人决定开一个笔记分享系列,一方面是促进自己阅读论文的动力,希望每次阅读时,能够细心一些分析有价值的论文,并将这些感悟记录下来,留给有需要的佬友。另一方面是希望与佬们交流见闻,促进自己的视野。本论文分享系列会持续更新,聚焦LLM/Agentic/CV方向的论文。
0.元信息
论文标题:Expanding LLM Agent Boundaries with Strategy-Guided Exploration
单位:苹果
原始论文:[2603.02045] Expanding LLM Agent Boundaries with Strategy-Guided Exploration
1.前言
本文提出了一种可插拔式的方法,基于GRPO进行实验,因此可以视为对GRPO的改进,但也可应用于其他RL方法。其主要针对策略模型的采样阶段,不涉及奖励函数部分。该方法能够根据本轮的轨迹情况,将反馈引入下一轮,从而改变采样阶段的行为,这一理念较为新颖有趣。
过往已有类似的生成温度调节和采样阶段设计,但本文的设计更为灵活简洁;此外,其聚焦于Agentic场景的应用效果,领域也更为新颖。本文的方法图质量实在是不尽人意,实在过于模糊,论文整体可视化做得也比较差,难以相信出自苹果之手…虽然近年来苹果的论文质量确实有些一般就是了。
2.问题
本文聚焦于解决传统RL方法在LLM后训练中探索能力匮乏的问题。简单来说,我们在进行RL后训练时,期望模型找到一条最佳的采样路径,但受限于奖励函数的设计缺陷与复杂的决策空间,这通常很难实现。
在奖励函数方面,我们常常面临奖励过于稀疏的问题,例如分类正确性奖励仅反馈0或1,对应正确与否,那么不同的探索路径也只会得到0/1的优势差异。当组间优势差异过低时,便会产生优势消失问题,模型容易陷入优化困难的局面,难以积极探索新的路径。
3.动机
作者注意到,单纯改变生成温度来引入多样性,在Agentic交互中效果不佳。原因在于,虽然温度改变了模型的交互坐标,但其决策本身并未变化——例如点击的仍是同一个按钮,只是坐标位置不同,并未发生决策层面的改变。这意味着,统一的温度调整对于强化微调模型而言并不会带来本质性的改变。
4.方法
本文主要提出了两个核心模块:一个是SGE(Strategy-Guided Exploration),即基于策略引导的探索机制;另一个是混合温度采样(Mixed-Temperature Sampling)。
image994×382 92.9 KB
从架构图来看并不十分清晰,为便于理解,我将其拆为两部分讨论:SGE如何实现,以及混合温度采样如何集成在SGE中。
4.1 GRPO预备知识
由于找不到比较好的图来辅助理解,这里借用了GRPO-CARE的架构图来说明SGE引入的改动。本质上,我们关注的是GRPO的四个阶段:输入数据→生成策略→奖励验证→组内优势。
image1386×840 163 KB
为不了解GRPO的读者简单介绍一下:
输入数据后,策略模型会生成对应的回答,这一阶段属于采样阶段,通常是一个问题生成8个回答。这8个回答因温度设置而存在差异,该差异决定了样本的正确与否。
生成的8个样本会进入验证器(即设定的奖励函数),判断每个样本的生成质量。简单来说,奖励阶段可以给予二分类评判(对/错),对给1分、错给0分,这就是标准的稀疏奖励,当然也可以引入其他设计。如此,每个样本便有一个对应的分数。
当这些样本进入优势计算阶段时,8个样本同属一组,GRPO将计算组内差异。其中涉及较为复杂的计算,但简单理解就是:对8个样本取平均,然后以平均值(如0.5)为界进行分类,低于平均值的作为负样本,高于平均值的作为正样本,由此计算损失值。
GRPO的目标是通过这一方式使所有样本都趋近正样本,而这一优化目标依赖于组内差异,即只有在理想情况下,平均值才能通过优化不断上浮。如果8个样本给出了相近的分数,这一机制便会失效,产生优势消失现象。简单来说,当所有样本的得分都是0.8时,就无法继续有效优化了。
4.2 SGE
本文提出的SGE方法带来了一些变化(原谅我的鼠绘):
image1851×787 146 KB
SGE将上一轮的策略引入到下一轮的生成当中。黄色区域代表上一轮的采样阶段,我们可以从中获知哪些样本成功、哪些失败。这些样本除了仍按GRPO标准范式计算损失外,还会被收集到一个CS集合中,该集合将在下一轮的生成中作为输入。
在下一轮中,除了输入用户数据(即正常的问题)外,还会将CS集合中的数据一并输入,并利用预设的提示词进行拼接。论文定义的提示词如下:
Strategy prompt: First give a strategy of how to solve the question after “### Strategy”. Then
write the code to solve the question based on the strategy and question in “### Code”.
• Positive reflection prompt: First give a strategy of how to solve the question after “### Strategy”
inspired by this successful strategy.{strats} Then write the code to solve the question based
on the strategy and question in “### Code”.
• Negative reflection prompt: First, after “### Strategy” critique the failed strategy and how
it can be fixed. Be precise. Then address this critique by writing a better strategy. Make
sure the strategy is detailed, and the code is easy to implement from the strategy. {strats}
Then write the code to solve the question based on the strategy and question in “### Code”.
简单来说,就是告诉下一轮的策略模型:上一轮中哪些成功了、哪些失败了,成功的是怎么回答的、失败的是怎么回答的。由此,策略模型在生成新一轮回答之前,可以修正其潜在的错误生成。新的生成位于绿色区域。整体反馈思路简单,也很好理解。
4.3 mixed-temperature sampling
混合温度采样指的是,不同阶段的token采用不同的温度。在本文设计中,采样部分使用高温度(1.2),其他情况下使用低温度(0.6)。
image730×680 37 KB
具体而言,本文将不同阶段的token显式划分为策略(Strategy)Token、Action Token等,以此控制不同阶段的生成温度,而这些都发生在采样阶段。此处一个容易混淆的点是:
image920×741 112 KB
本文的温度控制发生在策略模型输出回答时,控制方式则是根据回答内容中的标签显式定义的——即被 <Strategy> 包裹的部分为高温度部分,其余则为低温度。
5.实验
本文分别使用了Qwen3-4B-Instruct(Code),Qwen3-8B-Reasoning(AppWorld)和Qwen2.5-VL-3B(Android World)作为骨干,进行了测试,比较了训练收敛情况:
image1277×439 141 KB
以及与GRPO基准进行比较的未见域任务测试:
image831×536 88.3 KB
6.结语
本文探究了一种有趣的优化方法,通过引入采样阶段的反馈机制,以及修改生成策略时,针对策略部分token的温度调节,提升了模型的探索能力。
整体不算复杂,工程性的内容偏多,比较有趣,尤其是温度控制部分值得实践尝试。
网友解答:--【壹】--:
我说个实话,一字不漏全看完了,但是看完之后感觉自己好像没看一样。。。
--【贰】--:
拜读一下
--【叁】--:
我说个实话,一字不漏全看完了,但是看完之后感觉自己好像没看过一样。。。
--【肆】--:
怎么这样
下次写的再简单点,这篇还是有点偏策略优化了,理解起来有点繁琐
--【伍】--:
Apple的论文…挺好挺好
之前seed也有篇控温的,感觉make sense
--【陆】--:
seed的文章也有意思,之前读过一篇他们的VST,关注Agentic自身调用能力的,也很有趣
不过seed跟Apple一样,写论文不知道为什么写的都很工程,读起来很难受(

![[论文随笔分享] 探索拓展大语言模型智能体的边界](/imgrand/Zh23kc2z.webp)