[论文随笔分享] 探索拓展大语言模型智能体的边界

2026-04-11 10:341阅读0评论SEO基础

内容介绍
文章标签
相关推荐

问题描述：

受到 @bfloat16 佬的启发，个人决定开一个笔记分享系列，一方面是促进自己阅读论文的动力，希望每次阅读时，能够细心一些分析有价值的论文，并将这些感悟记录下来，留给有需要的佬友。另一方面是希望与佬们交流见闻，促进自己的视野。本论文分享系列会持续更新，聚焦LLM/Agentic/CV方向的论文。

0.元信息

论文标题：Expanding LLM Agent Boundaries with Strategy-Guided Exploration
单位：苹果
原始论文：[2603.02045] Expanding LLM Agent Boundaries with Strategy-Guided Exploration

1.前言

本文提出了一种可插拔式的方法，基于GRPO进行实验，因此可以视为对GRPO的改进，但也可应用于其他RL方法。其主要针对策略模型的采样阶段，不涉及奖励函数部分。该方法能够根据本轮的轨迹情况，将反馈引入下一轮，从而改变采样阶段的行为，这一理念较为新颖有趣。

过往已有类似的生成温度调节和采样阶段设计，但本文的设计更为灵活简洁；此外，其聚焦于Agentic场景的应用效果，领域也更为新颖。本文的方法图质量实在是不尽人意，实在过于模糊，论文整体可视化做得也比较差，难以相信出自苹果之手…虽然近年来苹果的论文质量确实有些一般就是了。

2.问题

本文聚焦于解决传统RL方法在LLM后训练中探索能力匮乏的问题。简单来说，我们在进行RL后训练时，期望模型找到一条最佳的采样路径，但受限于奖励函数的设计缺陷与复杂的决策空间，这通常很难实现。

在奖励函数方面，我们常常面临奖励过于稀疏的问题，例如分类正确性奖励仅反馈0或1，对应正确与否，那么不同的探索路径也只会得到0/1的优势差异。当组间优势差异过低时，便会产生优势消失问题，模型容易陷入优化困难的局面，难以积极探索新的路径。

3.动机

作者注意到，单纯改变生成温度来引入多样性，在Agentic交互中效果不佳。原因在于，虽然温度改变了模型的交互坐标，但其决策本身并未变化——例如点击的仍是同一个按钮，只是坐标位置不同，并未发生决策层面的改变。这意味着，统一的温度调整对于强化微调模型而言并不会带来本质性的改变。

4.方法

本文主要提出了两个核心模块：一个是SGE（Strategy-Guided Exploration），即基于策略引导的探索机制；另一个是混合温度采样（Mixed-Temperature Sampling）。

image994×382 92.9 KB

从架构图来看并不十分清晰，为便于理解，我将其拆为两部分讨论：SGE如何实现，以及混合温度采样如何集成在SGE中。

4.1 GRPO预备知识

由于找不到比较好的图来辅助理解，这里借用了GRPO-CARE的架构图来说明SGE引入的改动。本质上，我们关注的是GRPO的四个阶段：输入数据→生成策略→奖励验证→组内优势。

image1386×840 163 KB

为不了解GRPO的读者简单介绍一下：
输入数据后，策略模型会生成对应的回答，这一阶段属于采样阶段，通常是一个问题生成8个回答。这8个回答因温度设置而存在差异，该差异决定了样本的正确与否。

生成的8个样本会进入验证器（即设定的奖励函数），判断每个样本的生成质量。简单来说，奖励阶段可以给予二分类评判（对/错），对给1分、错给0分，这就是标准的稀疏奖励，当然也可以引入其他设计。如此，每个样本便有一个对应的分数。

当这些样本进入优势计算阶段时，8个样本同属一组，GRPO将计算组内差异。其中涉及较为复杂的计算，但简单理解就是：对8个样本取平均，然后以平均值（如0.5）为界进行分类，低于平均值的作为负样本，高于平均值的作为正样本，由此计算损失值。

GRPO的目标是通过这一方式使所有样本都趋近正样本，而这一优化目标依赖于组内差异，即只有在理想情况下，平均值才能通过优化不断上浮。如果8个样本给出了相近的分数，这一机制便会失效，产生优势消失现象。简单来说，当所有样本的得分都是0.8时，就无法继续有效优化了。

4.2 SGE

本文提出的SGE方法带来了一些变化（原谅我的鼠绘）：

image1851×787 146 KB

SGE将上一轮的策略引入到下一轮的生成当中。黄色区域代表上一轮的采样阶段，我们可以从中获知哪些样本成功、哪些失败。这些样本除了仍按GRPO标准范式计算损失外，还会被收集到一个CS集合中，该集合将在下一轮的生成中作为输入。

在下一轮中，除了输入用户数据（即正常的问题）外，还会将CS集合中的数据一并输入，并利用预设的提示词进行拼接。论文定义的提示词如下：

Strategy prompt: First give a strategy of how to solve the question after “### Strategy”. Then
write the code to solve the question based on the strategy and question in “### Code”.
• Positive reflection prompt: First give a strategy of how to solve the question after “### Strategy”
inspired by this successful strategy.{strats} Then write the code to solve the question based
on the strategy and question in “### Code”.
• Negative reflection prompt: First, after “### Strategy” critique the failed strategy and how
it can be fixed. Be precise. Then address this critique by writing a better strategy. Make
sure the strategy is detailed, and the code is easy to implement from the strategy. {strats}
Then write the code to solve the question based on the strategy and question in “### Code”.

简单来说，就是告诉下一轮的策略模型：上一轮中哪些成功了、哪些失败了，成功的是怎么回答的、失败的是怎么回答的。由此，策略模型在生成新一轮回答之前，可以修正其潜在的错误生成。新的生成位于绿色区域。整体反馈思路简单，也很好理解。

4.3 mixed-temperature sampling

混合温度采样指的是，不同阶段的token采用不同的温度。在本文设计中，采样部分使用高温度（1.2），其他情况下使用低温度（0.6）。

image730×680 37 KB

具体而言，本文将不同阶段的token显式划分为策略（Strategy）Token、Action Token等，以此控制不同阶段的生成温度，而这些都发生在采样阶段。此处一个容易混淆的点是：

image920×741 112 KB

本文的温度控制发生在策略模型输出回答时，控制方式则是根据回答内容中的标签显式定义的——即被 <Strategy> 包裹的部分为高温度部分，其余则为低温度。

5.实验

本文分别使用了Qwen3-4B-Instruct(Code)，Qwen3-8B-Reasoning(AppWorld)和Qwen2.5-VL-3B(Android World)作为骨干，进行了测试，比较了训练收敛情况：
image1277×439 141 KB
以及与GRPO基准进行比较的未见域任务测试：
image831×536 88.3 KB

6.结语

本文探究了一种有趣的优化方法，通过引入采样阶段的反馈机制，以及修改生成策略时，针对策略部分token的温度调节，提升了模型的探索能力。

整体不算复杂，工程性的内容偏多，比较有趣，尤其是温度控制部分值得实践尝试。

网友解答：

--【壹】--：

我说个实话，一字不漏全看完了，但是看完之后感觉自己好像没看一样。。。

--【贰】--：

拜读一下

--【叁】--：

我说个实话，一字不漏全看完了，但是看完之后感觉自己好像没看过一样。。。

--【肆】--：

怎么这样
下次写的再简单点，这篇还是有点偏策略优化了，理解起来有点繁琐

--【伍】--：

Apple的论文…挺好挺好
之前seed也有篇控温的，感觉make sense

--【陆】--：

seed的文章也有意思，之前读过一篇他们的VST，关注Agentic自身调用能力的，也很有趣
不过seed跟Apple一样，写论文不知道为什么写的都很工程，读起来很难受（

标签：人工智能原创科研

问题描述：

受到 @bfloat16 佬的启发，个人决定开一个笔记分享系列，一方面是促进自己阅读论文的动力，希望每次阅读时，能够细心一些分析有价值的论文，并将这些感悟记录下来，留给有需要的佬友。另一方面是希望与佬们交流见闻，促进自己的视野。本论文分享系列会持续更新，聚焦LLM/Agentic/CV方向的论文。

0.元信息

论文标题：Expanding LLM Agent Boundaries with Strategy-Guided Exploration
单位：苹果
原始论文：[2603.02045] Expanding LLM Agent Boundaries with Strategy-Guided Exploration

1.前言

2.问题

3.动机

4.方法

本文主要提出了两个核心模块：一个是SGE（Strategy-Guided Exploration），即基于策略引导的探索机制；另一个是混合温度采样（Mixed-Temperature Sampling）。

image994×382 92.9 KB

从架构图来看并不十分清晰，为便于理解，我将其拆为两部分讨论：SGE如何实现，以及混合温度采样如何集成在SGE中。

4.1 GRPO预备知识

image1386×840 163 KB

4.2 SGE

本文提出的SGE方法带来了一些变化（原谅我的鼠绘）：

image1851×787 146 KB

在下一轮中，除了输入用户数据（即正常的问题）外，还会将CS集合中的数据一并输入，并利用预设的提示词进行拼接。论文定义的提示词如下：

Strategy prompt: First give a strategy of how to solve the question after “### Strategy”. Then
write the code to solve the question based on the strategy and question in “### Code”.
• Positive reflection prompt: First give a strategy of how to solve the question after “### Strategy”
inspired by this successful strategy.{strats} Then write the code to solve the question based
on the strategy and question in “### Code”.
• Negative reflection prompt: First, after “### Strategy” critique the failed strategy and how
it can be fixed. Be precise. Then address this critique by writing a better strategy. Make
sure the strategy is detailed, and the code is easy to implement from the strategy. {strats}
Then write the code to solve the question based on the strategy and question in “### Code”.

4.3 mixed-temperature sampling

混合温度采样指的是，不同阶段的token采用不同的温度。在本文设计中，采样部分使用高温度（1.2），其他情况下使用低温度（0.6）。

image730×680 37 KB

image920×741 112 KB

5.实验

6.结语

本文探究了一种有趣的优化方法，通过引入采样阶段的反馈机制，以及修改生成策略时，针对策略部分token的温度调节，提升了模型的探索能力。

整体不算复杂，工程性的内容偏多，比较有趣，尤其是温度控制部分值得实践尝试。

网友解答：

--【壹】--：

我说个实话，一字不漏全看完了，但是看完之后感觉自己好像没看一样。。。

--【贰】--：

拜读一下

--【叁】--：

我说个实话，一字不漏全看完了，但是看完之后感觉自己好像没看过一样。。。

--【肆】--：

怎么这样
下次写的再简单点，这篇还是有点偏策略优化了，理解起来有点繁琐

--【伍】--：

Apple的论文…挺好挺好
之前seed也有篇控温的，感觉make sense

--【陆】--：

标签：人工智能原创科研

0.元信息

1.前言

2.问题

3.动机

4.方法

4.1 GRPO预备知识

4.2 SGE

4.3 mixed-temperature sampling

5.实验

6.结语

相关推荐

0.元信息

1.前言

2.问题

3.动机

4.方法

4.1 GRPO预备知识

4.2 SGE

4.3 mixed-temperature sampling

5.实验

6.结语

相关推荐