LLM & Agent 每日论文阅读计划-D3

2026-04-13 12:161阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

LLM & Agent 每日论文阅读计划-D3


碎碎念

最近比较忙也是好几天没更新。本来计划第三天去看GRPO的。但是发现牵扯出了PPO、RLVR、RLAIF、RLHF等一大堆我不会的强化学习内容,于是打算从大模型用的强化学习算法开始从头看起。后面继续更新慢慢深入。


今日阅读主题:大模型的强化学习微调

  • 参考资料
    1. Illustrating Reinforcement Learning from Human Feedback (RLHF) - HuggingFace Blog, 2022.12
    2. Post-Training Techniques 2026 - LLM Stats Blog, 2026.03
    3. GRPO: the RL Algorithm Behind DeepSeek-R1 - Cameron R. Wolfe, 2025
    4. The State of LLM Reasoning Model Training - Sebastian Raschka, 2025
    5. Understanding Reasoning LLMs - Sebastian Raschka, 2025
    6. Reward Hacking in Reinforcement Learning - Lilian Weng, 2024.11
    7. AI 101: The State of Reinforcement Learning in 2025 - Turing Post, 2025.12

TL;DR

大模型强化学习微调从 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)出发,经历了 RLHF→RLAIF→RLVR 的范式转变。随着在 DeepSeek-R1 中证明的纯 RL+可验证奖励即可涌现的推理能力,2025 年 RL 在大模型训练流程中的定位已经彻底反转——从偏好对齐的辅助工具跃升为推理能力的核心引擎,后训练的设计和规模正在取代预训练的参数量,成为前沿大模型能力差距的主要来源。


细节阅读

一、为什么要强化学习?

post-training-techniques这篇文章把现代大模型训练过程分成了以下几个阶段:
预训练->监督微调->人类偏好对齐->推理强化学习
image1282×535 29.9 KB
其中强化学习既可以用来做人类偏好对齐也可以用来做推理强化学习。

用途1:偏好对齐

预训练模型经过训练学会了怎么补全文本,但不知道什么回答是「好的」——它可能给出有害内容、编造事实、或风格不合适。传统损失函数(交叉熵)和自动指标(BLEU/ROUGE)都无法捕捉「有帮助、诚实、无害」这类主观且多维的人类偏好。
通过引入强化学习能解决这个问题,这也是早期强化学习范式:基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)和基于 AI 反馈的强化学习(RL from AI Feedback,RLAIF)的主要作用

核心价值:偏好对齐——让模型输出符合人类期望的安全性、有用性和诚实性的回答。

用途2:推理能力涌现

即使对齐了人类偏好,模型在复杂推理(数学证明、多步编程)上仍然薄弱。而强化学习可以让大模型"涌现推理能力。 2025年用于大模型微调强化学习范式最重要的转变是从人类偏好标签转向可验证的推理任务奖励,这就是可验证奖励的强化学习(RL with Verifiable Rewards,RLVR)。RLVR用可自动验证的奖励(答案对不对、代码能不能跑通)作为信号,让模型通过大规模试错自主探索推理策略。DeepSeek-R1 证明了这条路径的威力:纯 RL 训练(无需人类标注推理链)就能让模型涌现出自验证、自纠错、分步推理等能力。

核心价值:能力突破——让模型从「模仿推理」走向「自主推理」,超越训练数据的上限。

SFT vs RL 微调:本质区别

这块我看了一个视频讲的很好:面试官:SFT训练到什么程度,才值得做RL?

视频里主要观点是: 大模型对齐其实分两次。第一次是把预训练的"互联网语言模型"对齐成"对话语言模型"——这一步必须用 SFT,不能直接上 RL。原因是 GPT-3 这种 base 模型优化的是文本补全而不是对话,你问它"中国的首都是",它会继续补全"中国的首都是北京,美国的首都是华盛顿……“。这时候去采样 100 个回答,可能一个真正在回答问题的都没有,reward 全是负的,RL 完全学不起来。所以必须先用 SFT 让模型学会"回答问题"这个基本形式。第二次对齐才是 RL 的舞台——把"会回答"的模型优化成"回答得好、回答得安全"的模型。因为此时对同一个 prompt 会有多个合理回答,质量有高有低,SFT 没法表达"哪个更好”,而 RL 通过 reward model 可以做到。

SFT 切 RL 的判断标准:用 SFT 后的模型对一批 prompt 各采样多个回答,如果 reward 分布相对均匀(有高有低)就可以切 RL;如果 reward 都是低分就继续 SFT。视频里还给了一个参考数据——DeepSeek V2 用了 150 万条 SFT 数据,2 个 epoch,学习率 5e-6,基本能让模型形成稳定的对话能力。

但在2025年初 DeepSeek-R1 发布之后这套逻辑发生了根本转变。 DeepSeek在论文中证明了纯 RL 可以在 base 模型上直接训练,不需要任何 SFT——只要 reward 是规则验证的(答案对错 + 格式检查,同时GRPO 用组内相对优势替代绝对 reward,base 模型就能在 RL 中涌现出反思、回溯、自我验证这些复杂推理行为。这直接颠覆了视频"必须先 SFT 再 RL"的前提。这背后是 scaling law 的迁移:预训练 scaling 已经到了瓶颈期(GPT-4.5、Llama 4 的平淡反响就是证据),而推理时的scaling 还在高速增长——OpenAI 公开说 o3 比 o1 多用 10 倍算力,几乎全部投入在 RL 后训练上。所以 RL 的定位彻底变了:从过去作为"锦上添花"的对齐手段,算力占比只有预训练的 1-5%;到现在"点石成金"的能力引擎,在推理模型训练中的算力消耗已经逼近甚至超过预训练本身。视频里"RL 算力是 SFT 的 2-4 倍"这个经验值在推理模型时代已经完全过时。一句话总结:2025 年前沿 LLM 的能力差距,越来越多地体现在 RL 后训练的设计和规模上,而不是预训练本身。


三、几种强化学习范式RLHF / RLAIF / RLVR 的定义与区别

这三者的核心区别在于奖励信号的来源

3.1 RLHF(Reinforcement Learning from Human Feedback)

定义:用人类反馈训练奖励模型,再用奖励模型指导 RL 优化。

流程(经典三步):

  1. 预训练/SFT:得到一个能回答问题的基础模型
  2. 训练奖励模型(RM):给同一个 prompt 生成多个回答 → 人类标注者排序 → 训练一个打分模型
  3. PPO 微调:用奖励模型的打分作为奖励信号,通过 PPO 优化策略模型

奖励函数设计

r = r_{\text{RM}} - \lambda \cdot D_{\text{KL}}(\pi_{\text{RL}} \| \pi_{\text{init}})

KL 散度惩罚防止模型偏离初始模型太远,避免生成无意义但高分的文本(reward hacking)。

代表工作:InstructGPT (OpenAI, 2022)

3.2 RLAIF(Reinforcement Learning from AI Feedback)

定义:用 AI 模型(而非人类)生成偏好标签或反馈信号。

动机:人类标注成本高、不可扩展;AI 反馈可以大规模自动生成。

典型方式

  • 用强大的 LLM(如 GPT-4)作为评判者,对模型输出打分/排序
  • 合成数据 + 自我对弈(Self-Play)

代表工作:Anthropic Constitutional AI;SPIN(模型区分自身输出与人类文本来自我改进)

3.3 RLVR(Reinforcement Learning with Verifiable Rewards)

定义:用可自动验证的确定性奖励(而非神经网络奖励模型)来训练。

奖励来源

  • 数学题:答案是否正确(符号验证器)
  • 代码:是否通过编译和单元测试
  • 格式:输出是否符合要求

核心优势

  • 完全消除了奖励模型,大幅降低 reward hacking 风险
  • 奖励信号准确、无噪声
  • 使大规模 RL 训练成为可能

代表工作:DeepSeek-R1

三者对比

维度 RLHF RLAIF RLVR
奖励来源 人类标注 → 奖励模型 AI 评判 → 奖励模型 规则验证器(确定性)
成本 高(人工标注) 中(API 调用) 低(自动验证)
Reward Hacking 风险
适用领域 通用对齐 通用对齐 可验证领域(数学/代码)
可扩展性 很好

四、强化学习的几个关键算法

4.1 PPO(Proximal Policy Optimization)

核心思想:信任区域优化——每次更新不要让策略变化太大,保证训练稳定。

在 LLM 中的角色:RLHF 的默认优化器(InstructGPT、ChatGPT 都用它)。

RL 问题建模

  • Policy(策略)= 语言模型
  • Action(动作)= 生成下一个 token
  • Reward(奖励)= 奖励模型打分 − KL 惩罚

Token 粒度的优势估计:PPO 通过 Critic 模型预测每个 token 位置的期望 value,然后用 advantage = reward - value 算出每个 token 自己的 advantage。这是 PPO 的理论优势——能区分同一个回答里哪些 token 贡献大、哪些贡献小,实现 token 级别的细粒度 credit assignment。

问题:需要同时维护 4 个模型(策略模型、参考模型、奖励模型、价值模型/Critic),内存开销巨大。而且在 LLM 这种稀疏 reward 场景下,Critic 本身很难学准,实际提供的 token 级信号往往带有大量噪声。

4.2 DPO(Direct Preference Optimization)

核心思想:跳过 RL,直接从人类偏好数据学习,把 RLHF 的目标重新推导为一个监督学习损失。

优势:简单、稳定、不需要 PPO 训练循环。
局限:存在长度偏差;依赖参考模型;从静态数据集学习,无法在线探索。

后续改进:SimPO(去掉参考模型)、KTO(只需二元反馈而非成对比较)、ORPO(合并 SFT 和偏好优化)。

4.3 GRPO(Group Relative Policy Optimization)

核心思想:对 PPO 的简化——去掉 Critic 模型,用「组内相对奖励」来估计优势函数。

算法流程

  1. 对每个 prompt 采样一组回答(通常 16-64 个)
  2. 对每个回答计算奖励
  3. 用组内均值和标准差归一化:A_i = (r_i - mean) / std
  4. 用归一化后的优势更新策略

Token 粒度的取舍:这里藏着 GRPO 最关键的一个 trade-off。GRPO 的 advantage 是序列级的——整个回答共享同一个 advantage 值,然后广播到这个回答里的每一个 token 上做梯度更新。这意味着GRPO 放弃了 token 级别的细粒度 credit assignment:它无法区分"这个回答整体不错,但第 50 个 token 不该选"这种细节,只能给整段回答一个统一的正向或负向信号。

为什么这个取舍是划算的

  • LLM 场景下 PPO 的 Critic 本来就学不准(稀疏 reward + 复杂状态空间),token 级信号更多是噪声而非真信号
  • 数学/代码/格式这类任务的 reward 本质就是序列级属性(整个推理链对不对),强行分配到 token 反而扭曲任务本质
  • 省掉 Critic 节省的算力可以用来增加 group size,靠更多采样降低梯度方差

换句话说,GRPO 用"低精度但准确的序列级信号"替代了 PPO 的"高精度但失真的 token 级信号",在 LLM 场景下反而更稳定。

与 PPO 对比

维度 PPO GRPO
需要的模型数 4(策略+参考+奖励+Critic) 3(无 Critic)
优势估计 学习的 Critic 模型 组内相对奖励
信号粒度 Token 级(理论上细粒度) 序列级(整段回答共享)
Credit assignment 可区分每个 token 的贡献 无法区分,所有 token 共享同一 advantage
内存消耗 显著降低
每个 prompt 采样数 1 16-64

代表工作:DeepSeekMath(首次提出)、DeepSeek-R1(大规模应用)

说人话:PPO 像老师给作文的每个句子单独打分,GRPO 像老师给整篇作文一个总分。前者更精细但老师打分本身就不准,后者更粗糙但至少不会错——在 LLM 场景下粗糙而准确反而比精细而失真更有用。

4.4 DAPO(Dynamic sampling Policy Optimization)

来源:ByteDance & 清华大学,2025(论文)

核心动机:GRPO 在训练长链式思维(long CoT)时存在熵崩溃(模型探索性急剧下降)和训练不稳定的问题。DAPO 针对性地提出四项技术改进:

四个关键技术

技术 解决的问题 做法
Clip-Higher 熵崩溃(模型过早收敛,不再探索) 解耦 PPO clip 的上下阈值——放宽上界(如 0.28),收紧下界(如 0.2),鼓励模型尝试新策略
Dynamic Sampling 全对/全错批次提供不了有效梯度信号 过滤掉组内回答全对或全错的 prompt,只保留有区分度的批次,保证梯度信号一致性
Token-level Policy Gradient Loss 长序列的梯度消失 将策略梯度损失从 sequence 级别改为 token 级别计算,避免长回答被短回答主导
Overlong Reward Shaping 超长回答引入奖励噪声 对超出长度限制的回答施加递减惩罚,而非直接截断,降低奖励噪声

与 GRPO 的关系:DAPO 本质上是 GRPO 的工程增强版,保留了组相对优势估计的核心框架,但解决了 GRPO 在大规模长 CoT 训练中暴露的实际问题。


五、强化学习范式和强化算法的关系

一个容易产生的误解是:GRPO 是为 RLVR 设计的,PPO 只能做 RLHF。这个印象主要是因为 DeepSeek-R1 用的恰好是"GRPO + RLVR"这个组合,让很多人通过 R1 第一次知道 GRPO 时就把两者捆绑在了一起。

但实际上,RL 算法和 reward 来源是两个完全正交的维度

  • Reward 来源(RLHF / RLAIF / RLVR)决定了"reward 从哪里来"——人类标注的 RM、AI 标注的 RM、还是规则验证
  • 优化算法(PPO / GRPO / DPO)决定了"拿到 reward 之后怎么更新模型"

两者可以任意组合:

RLHF (人类 RM) RLAIF (AI RM) RLVR (规则验证)
PPO 经典组合 (InstructGPT) 可行 可行(o1 据信采用)
GRPO 可行 可行 经典组合 (DeepSeek-R1)
DPO 常见 常见 不适用(DPO 依赖偏好对)

注意 DPO 无法做 RLVR,因为 DPO 的本质是在偏好对数据上做监督学习,需要成对的 (chosen, rejected) 标签;而 RLVR 的 reward 是绝对的标量(对或错),没有天然的 pairwise 结构。但 PPO 和 GRPO 两个 RL 算法对所有 reward 来源都通吃。

5.1 为什么 GRPO + RLVR 成为了明星组合

既然 PPO 理论上也能做 RLVR,为什么 R1 时代大家都在用 GRPO + RLVR?有三个现实原因:

1. 工程简化度最高:GRPO 省掉 Critic,RLVR 省掉 RM,两者叠加让原本需要 4 个大模型的 PPO+RLHF 流程降到只需要 2 个模型(Policy + Reference)。显存占用大幅下降,小团队和个人研究者也能跑起来。

2. PPO 的 Critic 在稀疏 reward 下学不准:RLVR 的 reward 通常非常稀疏(只在序列末尾给一个 0 或 1)。PPO 的 Critic 需要从这种稀疏信号里学会给每个 token 位置估计 value,在实践中非常困难——噪声大的 value 估计反而会给训练引入额外的不稳定性。GRPO 直接用组内相对排名替代 Critic,天然避开了这个陷阱。

3. 历史巧合:GRPO 首次出圈就是通过 R1,而 R1 恰好用的是 RLVR。所以大量读者形成了"GRPO = RLVR 专用"的印象,但翻回 DeepSeekMath 原论文会发现 GRPO 最初提出时用的 reward 里既有规则也有学习出来的 RM,它从诞生第一天起就不是专属于规则奖励的算法

5.2 PPO 做 RLVR 的实际案例

OpenAI 的 o1 系列:训练细节从未公开,但业界普遍推测用的是 PPO 变体 + 过程奖励(PRM, Process Reward Model)。PRM 给推理链的每一步打分,让 Critic 有相对稠密的信号可学,从而让 PPO 在稀疏 reward 场景下依然可用。

VinePPO / ReMax 等工作:2024 年出现的一批 PPO 变体,专门针对长序列稀疏 reward 下 Critic 学不准的问题,用蒙特卡洛采样或贪心采样替代 Critic 来估计 value。本质上都是在让 PPO 适配 RLVR 场景。


六、发展路径总结

时间线: 2020-2022 RLHF 时代 ├── InstructGPT:RLHF 三步法(SFT → RM → PPO) ├── ChatGPT:RLHF 应用于对话,引发范式转变 └── 痛点:人工标注贵、奖励模型不可靠、PPO 不稳定 2023-2024 去 RL 化 & 简化 ├── DPO:跳过 RL,直接偏好优化 ├── SimPO / KTO / ORPO:进一步简化 ├── RLAIF:用 AI 替代人类标注 └── GPT o1:RL 训练推理能力,开启 LRM 时代 2024-2025 RLVR 革命 ├── GRPO:去掉 Critic,大幅降低内存 ├── DeepSeek-R1:纯 RLVR 涌现推理,开源里程碑 ├── DAPO:解决长 CoT 训练不稳定性 └── 趋势:从人类反馈 → 可验证奖励,从对齐 → 推理 范式转变: 奖励来源:人类标注 → AI 反馈 → 规则验证器 优化算法:PPO(重) → DPO(轻但静态) → GRPO(轻且在线) 训练目标:对齐人类偏好 → 涌现推理能力


七、强化学习绕不开的难题:Reward Hacking

Reward Hacking 是 RL 训练中的核心挑战——模型学会"钻奖励函数的空子"而非真正完成任务。

在 RLHF 中的典型表现

  • U-Sophistry:模型变得更善于说服评估者认可错误答案
  • 谄媚行为(Sycophancy):模型迎合用户信念而非反映事实
  • 长度偏差:PPO 和 GRPO 都会导致模型生成过长的(错误)回答

Goodhart 定律:当一个度量变成优化目标时,它就不再是好的度量。任何代理奖励都会被 RL 算法利用其不完美之处。

缓解方式

  • KL 散度惩罚(限制探索空间)
  • RLVR 用确定性验证器取代神经奖励模型
  • 多奖励源组合
  • 对抗性训练

我的感悟

2025年以来, 随着scaling law的重心从预训练向后训练以及推理的迁移。后训练的重要性已经越发凸显,其核心就是强化学习(RLVR)。前沿 LLM 的能力差距,越来越多地体现在 RL 后训练的设计和规模上,而不是预训练本身。

网友解答:
--【壹】--:

LLM & Agent 每日论文阅读计划-D3


碎碎念

最近比较忙也是好几天没更新。本来计划第三天去看GRPO的。但是发现牵扯出了PPO、RLVR、RLAIF、RLHF等一大堆我不会的强化学习内容,于是打算从大模型用的强化学习算法开始从头看起。后面继续更新慢慢深入。


今日阅读主题:大模型的强化学习微调

  • 参考资料
    1. Illustrating Reinforcement Learning from Human Feedback (RLHF) - HuggingFace Blog, 2022.12
    2. Post-Training Techniques 2026 - LLM Stats Blog, 2026.03
    3. GRPO: the RL Algorithm Behind DeepSeek-R1 - Cameron R. Wolfe, 2025
    4. The State of LLM Reasoning Model Training - Sebastian Raschka, 2025
    5. Understanding Reasoning LLMs - Sebastian Raschka, 2025
    6. Reward Hacking in Reinforcement Learning - Lilian Weng, 2024.11
    7. AI 101: The State of Reinforcement Learning in 2025 - Turing Post, 2025.12

TL;DR

大模型强化学习微调从 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)出发,经历了 RLHF→RLAIF→RLVR 的范式转变。随着在 DeepSeek-R1 中证明的纯 RL+可验证奖励即可涌现的推理能力,2025 年 RL 在大模型训练流程中的定位已经彻底反转——从偏好对齐的辅助工具跃升为推理能力的核心引擎,后训练的设计和规模正在取代预训练的参数量,成为前沿大模型能力差距的主要来源。


细节阅读

一、为什么要强化学习?

post-training-techniques这篇文章把现代大模型训练过程分成了以下几个阶段:
预训练->监督微调->人类偏好对齐->推理强化学习
image1282×535 29.9 KB
其中强化学习既可以用来做人类偏好对齐也可以用来做推理强化学习。

用途1:偏好对齐

预训练模型经过训练学会了怎么补全文本,但不知道什么回答是「好的」——它可能给出有害内容、编造事实、或风格不合适。传统损失函数(交叉熵)和自动指标(BLEU/ROUGE)都无法捕捉「有帮助、诚实、无害」这类主观且多维的人类偏好。
通过引入强化学习能解决这个问题,这也是早期强化学习范式:基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)和基于 AI 反馈的强化学习(RL from AI Feedback,RLAIF)的主要作用

核心价值:偏好对齐——让模型输出符合人类期望的安全性、有用性和诚实性的回答。

用途2:推理能力涌现

即使对齐了人类偏好,模型在复杂推理(数学证明、多步编程)上仍然薄弱。而强化学习可以让大模型"涌现推理能力。 2025年用于大模型微调强化学习范式最重要的转变是从人类偏好标签转向可验证的推理任务奖励,这就是可验证奖励的强化学习(RL with Verifiable Rewards,RLVR)。RLVR用可自动验证的奖励(答案对不对、代码能不能跑通)作为信号,让模型通过大规模试错自主探索推理策略。DeepSeek-R1 证明了这条路径的威力:纯 RL 训练(无需人类标注推理链)就能让模型涌现出自验证、自纠错、分步推理等能力。

核心价值:能力突破——让模型从「模仿推理」走向「自主推理」,超越训练数据的上限。

SFT vs RL 微调:本质区别

这块我看了一个视频讲的很好:面试官:SFT训练到什么程度,才值得做RL?

视频里主要观点是: 大模型对齐其实分两次。第一次是把预训练的"互联网语言模型"对齐成"对话语言模型"——这一步必须用 SFT,不能直接上 RL。原因是 GPT-3 这种 base 模型优化的是文本补全而不是对话,你问它"中国的首都是",它会继续补全"中国的首都是北京,美国的首都是华盛顿……“。这时候去采样 100 个回答,可能一个真正在回答问题的都没有,reward 全是负的,RL 完全学不起来。所以必须先用 SFT 让模型学会"回答问题"这个基本形式。第二次对齐才是 RL 的舞台——把"会回答"的模型优化成"回答得好、回答得安全"的模型。因为此时对同一个 prompt 会有多个合理回答,质量有高有低,SFT 没法表达"哪个更好”,而 RL 通过 reward model 可以做到。

SFT 切 RL 的判断标准:用 SFT 后的模型对一批 prompt 各采样多个回答,如果 reward 分布相对均匀(有高有低)就可以切 RL;如果 reward 都是低分就继续 SFT。视频里还给了一个参考数据——DeepSeek V2 用了 150 万条 SFT 数据,2 个 epoch,学习率 5e-6,基本能让模型形成稳定的对话能力。

但在2025年初 DeepSeek-R1 发布之后这套逻辑发生了根本转变。 DeepSeek在论文中证明了纯 RL 可以在 base 模型上直接训练,不需要任何 SFT——只要 reward 是规则验证的(答案对错 + 格式检查,同时GRPO 用组内相对优势替代绝对 reward,base 模型就能在 RL 中涌现出反思、回溯、自我验证这些复杂推理行为。这直接颠覆了视频"必须先 SFT 再 RL"的前提。这背后是 scaling law 的迁移:预训练 scaling 已经到了瓶颈期(GPT-4.5、Llama 4 的平淡反响就是证据),而推理时的scaling 还在高速增长——OpenAI 公开说 o3 比 o1 多用 10 倍算力,几乎全部投入在 RL 后训练上。所以 RL 的定位彻底变了:从过去作为"锦上添花"的对齐手段,算力占比只有预训练的 1-5%;到现在"点石成金"的能力引擎,在推理模型训练中的算力消耗已经逼近甚至超过预训练本身。视频里"RL 算力是 SFT 的 2-4 倍"这个经验值在推理模型时代已经完全过时。一句话总结:2025 年前沿 LLM 的能力差距,越来越多地体现在 RL 后训练的设计和规模上,而不是预训练本身。


三、几种强化学习范式RLHF / RLAIF / RLVR 的定义与区别

这三者的核心区别在于奖励信号的来源

3.1 RLHF(Reinforcement Learning from Human Feedback)

定义:用人类反馈训练奖励模型,再用奖励模型指导 RL 优化。

流程(经典三步):

  1. 预训练/SFT:得到一个能回答问题的基础模型
  2. 训练奖励模型(RM):给同一个 prompt 生成多个回答 → 人类标注者排序 → 训练一个打分模型
  3. PPO 微调:用奖励模型的打分作为奖励信号,通过 PPO 优化策略模型

奖励函数设计

r = r_{\text{RM}} - \lambda \cdot D_{\text{KL}}(\pi_{\text{RL}} \| \pi_{\text{init}})

KL 散度惩罚防止模型偏离初始模型太远,避免生成无意义但高分的文本(reward hacking)。

代表工作:InstructGPT (OpenAI, 2022)

3.2 RLAIF(Reinforcement Learning from AI Feedback)

定义:用 AI 模型(而非人类)生成偏好标签或反馈信号。

动机:人类标注成本高、不可扩展;AI 反馈可以大规模自动生成。

典型方式

  • 用强大的 LLM(如 GPT-4)作为评判者,对模型输出打分/排序
  • 合成数据 + 自我对弈(Self-Play)

代表工作:Anthropic Constitutional AI;SPIN(模型区分自身输出与人类文本来自我改进)

3.3 RLVR(Reinforcement Learning with Verifiable Rewards)

定义:用可自动验证的确定性奖励(而非神经网络奖励模型)来训练。

奖励来源

  • 数学题:答案是否正确(符号验证器)
  • 代码:是否通过编译和单元测试
  • 格式:输出是否符合要求

核心优势

  • 完全消除了奖励模型,大幅降低 reward hacking 风险
  • 奖励信号准确、无噪声
  • 使大规模 RL 训练成为可能

代表工作:DeepSeek-R1

三者对比

维度 RLHF RLAIF RLVR
奖励来源 人类标注 → 奖励模型 AI 评判 → 奖励模型 规则验证器(确定性)
成本 高(人工标注) 中(API 调用) 低(自动验证)
Reward Hacking 风险
适用领域 通用对齐 通用对齐 可验证领域(数学/代码)
可扩展性 很好

四、强化学习的几个关键算法

4.1 PPO(Proximal Policy Optimization)

核心思想:信任区域优化——每次更新不要让策略变化太大,保证训练稳定。

在 LLM 中的角色:RLHF 的默认优化器(InstructGPT、ChatGPT 都用它)。

RL 问题建模

  • Policy(策略)= 语言模型
  • Action(动作)= 生成下一个 token
  • Reward(奖励)= 奖励模型打分 − KL 惩罚

Token 粒度的优势估计:PPO 通过 Critic 模型预测每个 token 位置的期望 value,然后用 advantage = reward - value 算出每个 token 自己的 advantage。这是 PPO 的理论优势——能区分同一个回答里哪些 token 贡献大、哪些贡献小,实现 token 级别的细粒度 credit assignment。

问题:需要同时维护 4 个模型(策略模型、参考模型、奖励模型、价值模型/Critic),内存开销巨大。而且在 LLM 这种稀疏 reward 场景下,Critic 本身很难学准,实际提供的 token 级信号往往带有大量噪声。

4.2 DPO(Direct Preference Optimization)

核心思想:跳过 RL,直接从人类偏好数据学习,把 RLHF 的目标重新推导为一个监督学习损失。

优势:简单、稳定、不需要 PPO 训练循环。
局限:存在长度偏差;依赖参考模型;从静态数据集学习,无法在线探索。

后续改进:SimPO(去掉参考模型)、KTO(只需二元反馈而非成对比较)、ORPO(合并 SFT 和偏好优化)。

4.3 GRPO(Group Relative Policy Optimization)

核心思想:对 PPO 的简化——去掉 Critic 模型,用「组内相对奖励」来估计优势函数。

算法流程

  1. 对每个 prompt 采样一组回答(通常 16-64 个)
  2. 对每个回答计算奖励
  3. 用组内均值和标准差归一化:A_i = (r_i - mean) / std
  4. 用归一化后的优势更新策略

Token 粒度的取舍:这里藏着 GRPO 最关键的一个 trade-off。GRPO 的 advantage 是序列级的——整个回答共享同一个 advantage 值,然后广播到这个回答里的每一个 token 上做梯度更新。这意味着GRPO 放弃了 token 级别的细粒度 credit assignment:它无法区分"这个回答整体不错,但第 50 个 token 不该选"这种细节,只能给整段回答一个统一的正向或负向信号。

为什么这个取舍是划算的

  • LLM 场景下 PPO 的 Critic 本来就学不准(稀疏 reward + 复杂状态空间),token 级信号更多是噪声而非真信号
  • 数学/代码/格式这类任务的 reward 本质就是序列级属性(整个推理链对不对),强行分配到 token 反而扭曲任务本质
  • 省掉 Critic 节省的算力可以用来增加 group size,靠更多采样降低梯度方差

换句话说,GRPO 用"低精度但准确的序列级信号"替代了 PPO 的"高精度但失真的 token 级信号",在 LLM 场景下反而更稳定。

与 PPO 对比

维度 PPO GRPO
需要的模型数 4(策略+参考+奖励+Critic) 3(无 Critic)
优势估计 学习的 Critic 模型 组内相对奖励
信号粒度 Token 级(理论上细粒度) 序列级(整段回答共享)
Credit assignment 可区分每个 token 的贡献 无法区分,所有 token 共享同一 advantage
内存消耗 显著降低
每个 prompt 采样数 1 16-64

代表工作:DeepSeekMath(首次提出)、DeepSeek-R1(大规模应用)

说人话:PPO 像老师给作文的每个句子单独打分,GRPO 像老师给整篇作文一个总分。前者更精细但老师打分本身就不准,后者更粗糙但至少不会错——在 LLM 场景下粗糙而准确反而比精细而失真更有用。

4.4 DAPO(Dynamic sampling Policy Optimization)

来源:ByteDance & 清华大学,2025(论文)

核心动机:GRPO 在训练长链式思维(long CoT)时存在熵崩溃(模型探索性急剧下降)和训练不稳定的问题。DAPO 针对性地提出四项技术改进:

四个关键技术

技术 解决的问题 做法
Clip-Higher 熵崩溃(模型过早收敛,不再探索) 解耦 PPO clip 的上下阈值——放宽上界(如 0.28),收紧下界(如 0.2),鼓励模型尝试新策略
Dynamic Sampling 全对/全错批次提供不了有效梯度信号 过滤掉组内回答全对或全错的 prompt,只保留有区分度的批次,保证梯度信号一致性
Token-level Policy Gradient Loss 长序列的梯度消失 将策略梯度损失从 sequence 级别改为 token 级别计算,避免长回答被短回答主导
Overlong Reward Shaping 超长回答引入奖励噪声 对超出长度限制的回答施加递减惩罚,而非直接截断,降低奖励噪声

与 GRPO 的关系:DAPO 本质上是 GRPO 的工程增强版,保留了组相对优势估计的核心框架,但解决了 GRPO 在大规模长 CoT 训练中暴露的实际问题。


五、强化学习范式和强化算法的关系

一个容易产生的误解是:GRPO 是为 RLVR 设计的,PPO 只能做 RLHF。这个印象主要是因为 DeepSeek-R1 用的恰好是"GRPO + RLVR"这个组合,让很多人通过 R1 第一次知道 GRPO 时就把两者捆绑在了一起。

但实际上,RL 算法和 reward 来源是两个完全正交的维度

  • Reward 来源(RLHF / RLAIF / RLVR)决定了"reward 从哪里来"——人类标注的 RM、AI 标注的 RM、还是规则验证
  • 优化算法(PPO / GRPO / DPO)决定了"拿到 reward 之后怎么更新模型"

两者可以任意组合:

RLHF (人类 RM) RLAIF (AI RM) RLVR (规则验证)
PPO 经典组合 (InstructGPT) 可行 可行(o1 据信采用)
GRPO 可行 可行 经典组合 (DeepSeek-R1)
DPO 常见 常见 不适用(DPO 依赖偏好对)

注意 DPO 无法做 RLVR,因为 DPO 的本质是在偏好对数据上做监督学习,需要成对的 (chosen, rejected) 标签;而 RLVR 的 reward 是绝对的标量(对或错),没有天然的 pairwise 结构。但 PPO 和 GRPO 两个 RL 算法对所有 reward 来源都通吃。

5.1 为什么 GRPO + RLVR 成为了明星组合

既然 PPO 理论上也能做 RLVR,为什么 R1 时代大家都在用 GRPO + RLVR?有三个现实原因:

1. 工程简化度最高:GRPO 省掉 Critic,RLVR 省掉 RM,两者叠加让原本需要 4 个大模型的 PPO+RLHF 流程降到只需要 2 个模型(Policy + Reference)。显存占用大幅下降,小团队和个人研究者也能跑起来。

2. PPO 的 Critic 在稀疏 reward 下学不准:RLVR 的 reward 通常非常稀疏(只在序列末尾给一个 0 或 1)。PPO 的 Critic 需要从这种稀疏信号里学会给每个 token 位置估计 value,在实践中非常困难——噪声大的 value 估计反而会给训练引入额外的不稳定性。GRPO 直接用组内相对排名替代 Critic,天然避开了这个陷阱。

3. 历史巧合:GRPO 首次出圈就是通过 R1,而 R1 恰好用的是 RLVR。所以大量读者形成了"GRPO = RLVR 专用"的印象,但翻回 DeepSeekMath 原论文会发现 GRPO 最初提出时用的 reward 里既有规则也有学习出来的 RM,它从诞生第一天起就不是专属于规则奖励的算法

5.2 PPO 做 RLVR 的实际案例

OpenAI 的 o1 系列:训练细节从未公开,但业界普遍推测用的是 PPO 变体 + 过程奖励(PRM, Process Reward Model)。PRM 给推理链的每一步打分,让 Critic 有相对稠密的信号可学,从而让 PPO 在稀疏 reward 场景下依然可用。

VinePPO / ReMax 等工作:2024 年出现的一批 PPO 变体,专门针对长序列稀疏 reward 下 Critic 学不准的问题,用蒙特卡洛采样或贪心采样替代 Critic 来估计 value。本质上都是在让 PPO 适配 RLVR 场景。


六、发展路径总结

时间线: 2020-2022 RLHF 时代 ├── InstructGPT:RLHF 三步法(SFT → RM → PPO) ├── ChatGPT:RLHF 应用于对话,引发范式转变 └── 痛点:人工标注贵、奖励模型不可靠、PPO 不稳定 2023-2024 去 RL 化 & 简化 ├── DPO:跳过 RL,直接偏好优化 ├── SimPO / KTO / ORPO:进一步简化 ├── RLAIF:用 AI 替代人类标注 └── GPT o1:RL 训练推理能力,开启 LRM 时代 2024-2025 RLVR 革命 ├── GRPO:去掉 Critic,大幅降低内存 ├── DeepSeek-R1:纯 RLVR 涌现推理,开源里程碑 ├── DAPO:解决长 CoT 训练不稳定性 └── 趋势:从人类反馈 → 可验证奖励,从对齐 → 推理 范式转变: 奖励来源:人类标注 → AI 反馈 → 规则验证器 优化算法:PPO(重) → DPO(轻但静态) → GRPO(轻且在线) 训练目标:对齐人类偏好 → 涌现推理能力


七、强化学习绕不开的难题:Reward Hacking

Reward Hacking 是 RL 训练中的核心挑战——模型学会"钻奖励函数的空子"而非真正完成任务。

在 RLHF 中的典型表现

  • U-Sophistry:模型变得更善于说服评估者认可错误答案
  • 谄媚行为(Sycophancy):模型迎合用户信念而非反映事实
  • 长度偏差:PPO 和 GRPO 都会导致模型生成过长的(错误)回答

Goodhart 定律:当一个度量变成优化目标时,它就不再是好的度量。任何代理奖励都会被 RL 算法利用其不完美之处。

缓解方式

  • KL 散度惩罚(限制探索空间)
  • RLVR 用确定性验证器取代神经奖励模型
  • 多奖励源组合
  • 对抗性训练

我的感悟

2025年以来, 随着scaling law的重心从预训练向后训练以及推理的迁移。后训练的重要性已经越发凸显,其核心就是强化学习(RLVR)。前沿 LLM 的能力差距,越来越多地体现在 RL 后训练的设计和规模上,而不是预训练本身。

问题描述:

LLM & Agent 每日论文阅读计划-D3


碎碎念

最近比较忙也是好几天没更新。本来计划第三天去看GRPO的。但是发现牵扯出了PPO、RLVR、RLAIF、RLHF等一大堆我不会的强化学习内容,于是打算从大模型用的强化学习算法开始从头看起。后面继续更新慢慢深入。


今日阅读主题:大模型的强化学习微调

  • 参考资料
    1. Illustrating Reinforcement Learning from Human Feedback (RLHF) - HuggingFace Blog, 2022.12
    2. Post-Training Techniques 2026 - LLM Stats Blog, 2026.03
    3. GRPO: the RL Algorithm Behind DeepSeek-R1 - Cameron R. Wolfe, 2025
    4. The State of LLM Reasoning Model Training - Sebastian Raschka, 2025
    5. Understanding Reasoning LLMs - Sebastian Raschka, 2025
    6. Reward Hacking in Reinforcement Learning - Lilian Weng, 2024.11
    7. AI 101: The State of Reinforcement Learning in 2025 - Turing Post, 2025.12

TL;DR

大模型强化学习微调从 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)出发,经历了 RLHF→RLAIF→RLVR 的范式转变。随着在 DeepSeek-R1 中证明的纯 RL+可验证奖励即可涌现的推理能力,2025 年 RL 在大模型训练流程中的定位已经彻底反转——从偏好对齐的辅助工具跃升为推理能力的核心引擎,后训练的设计和规模正在取代预训练的参数量,成为前沿大模型能力差距的主要来源。


细节阅读

一、为什么要强化学习?

post-training-techniques这篇文章把现代大模型训练过程分成了以下几个阶段:
预训练->监督微调->人类偏好对齐->推理强化学习
image1282×535 29.9 KB
其中强化学习既可以用来做人类偏好对齐也可以用来做推理强化学习。

用途1:偏好对齐

预训练模型经过训练学会了怎么补全文本,但不知道什么回答是「好的」——它可能给出有害内容、编造事实、或风格不合适。传统损失函数(交叉熵)和自动指标(BLEU/ROUGE)都无法捕捉「有帮助、诚实、无害」这类主观且多维的人类偏好。
通过引入强化学习能解决这个问题,这也是早期强化学习范式:基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)和基于 AI 反馈的强化学习(RL from AI Feedback,RLAIF)的主要作用

核心价值:偏好对齐——让模型输出符合人类期望的安全性、有用性和诚实性的回答。

用途2:推理能力涌现

即使对齐了人类偏好,模型在复杂推理(数学证明、多步编程)上仍然薄弱。而强化学习可以让大模型"涌现推理能力。 2025年用于大模型微调强化学习范式最重要的转变是从人类偏好标签转向可验证的推理任务奖励,这就是可验证奖励的强化学习(RL with Verifiable Rewards,RLVR)。RLVR用可自动验证的奖励(答案对不对、代码能不能跑通)作为信号,让模型通过大规模试错自主探索推理策略。DeepSeek-R1 证明了这条路径的威力:纯 RL 训练(无需人类标注推理链)就能让模型涌现出自验证、自纠错、分步推理等能力。

核心价值:能力突破——让模型从「模仿推理」走向「自主推理」,超越训练数据的上限。

SFT vs RL 微调:本质区别

这块我看了一个视频讲的很好:面试官:SFT训练到什么程度,才值得做RL?

视频里主要观点是: 大模型对齐其实分两次。第一次是把预训练的"互联网语言模型"对齐成"对话语言模型"——这一步必须用 SFT,不能直接上 RL。原因是 GPT-3 这种 base 模型优化的是文本补全而不是对话,你问它"中国的首都是",它会继续补全"中国的首都是北京,美国的首都是华盛顿……“。这时候去采样 100 个回答,可能一个真正在回答问题的都没有,reward 全是负的,RL 完全学不起来。所以必须先用 SFT 让模型学会"回答问题"这个基本形式。第二次对齐才是 RL 的舞台——把"会回答"的模型优化成"回答得好、回答得安全"的模型。因为此时对同一个 prompt 会有多个合理回答,质量有高有低,SFT 没法表达"哪个更好”,而 RL 通过 reward model 可以做到。

SFT 切 RL 的判断标准:用 SFT 后的模型对一批 prompt 各采样多个回答,如果 reward 分布相对均匀(有高有低)就可以切 RL;如果 reward 都是低分就继续 SFT。视频里还给了一个参考数据——DeepSeek V2 用了 150 万条 SFT 数据,2 个 epoch,学习率 5e-6,基本能让模型形成稳定的对话能力。

但在2025年初 DeepSeek-R1 发布之后这套逻辑发生了根本转变。 DeepSeek在论文中证明了纯 RL 可以在 base 模型上直接训练,不需要任何 SFT——只要 reward 是规则验证的(答案对错 + 格式检查,同时GRPO 用组内相对优势替代绝对 reward,base 模型就能在 RL 中涌现出反思、回溯、自我验证这些复杂推理行为。这直接颠覆了视频"必须先 SFT 再 RL"的前提。这背后是 scaling law 的迁移:预训练 scaling 已经到了瓶颈期(GPT-4.5、Llama 4 的平淡反响就是证据),而推理时的scaling 还在高速增长——OpenAI 公开说 o3 比 o1 多用 10 倍算力,几乎全部投入在 RL 后训练上。所以 RL 的定位彻底变了:从过去作为"锦上添花"的对齐手段,算力占比只有预训练的 1-5%;到现在"点石成金"的能力引擎,在推理模型训练中的算力消耗已经逼近甚至超过预训练本身。视频里"RL 算力是 SFT 的 2-4 倍"这个经验值在推理模型时代已经完全过时。一句话总结:2025 年前沿 LLM 的能力差距,越来越多地体现在 RL 后训练的设计和规模上,而不是预训练本身。


三、几种强化学习范式RLHF / RLAIF / RLVR 的定义与区别

这三者的核心区别在于奖励信号的来源

3.1 RLHF(Reinforcement Learning from Human Feedback)

定义:用人类反馈训练奖励模型,再用奖励模型指导 RL 优化。

流程(经典三步):

  1. 预训练/SFT:得到一个能回答问题的基础模型
  2. 训练奖励模型(RM):给同一个 prompt 生成多个回答 → 人类标注者排序 → 训练一个打分模型
  3. PPO 微调:用奖励模型的打分作为奖励信号,通过 PPO 优化策略模型

奖励函数设计

r = r_{\text{RM}} - \lambda \cdot D_{\text{KL}}(\pi_{\text{RL}} \| \pi_{\text{init}})

KL 散度惩罚防止模型偏离初始模型太远,避免生成无意义但高分的文本(reward hacking)。

代表工作:InstructGPT (OpenAI, 2022)

3.2 RLAIF(Reinforcement Learning from AI Feedback)

定义:用 AI 模型(而非人类)生成偏好标签或反馈信号。

动机:人类标注成本高、不可扩展;AI 反馈可以大规模自动生成。

典型方式

  • 用强大的 LLM(如 GPT-4)作为评判者,对模型输出打分/排序
  • 合成数据 + 自我对弈(Self-Play)

代表工作:Anthropic Constitutional AI;SPIN(模型区分自身输出与人类文本来自我改进)

3.3 RLVR(Reinforcement Learning with Verifiable Rewards)

定义:用可自动验证的确定性奖励(而非神经网络奖励模型)来训练。

奖励来源

  • 数学题:答案是否正确(符号验证器)
  • 代码:是否通过编译和单元测试
  • 格式:输出是否符合要求

核心优势

  • 完全消除了奖励模型,大幅降低 reward hacking 风险
  • 奖励信号准确、无噪声
  • 使大规模 RL 训练成为可能

代表工作:DeepSeek-R1

三者对比

维度 RLHF RLAIF RLVR
奖励来源 人类标注 → 奖励模型 AI 评判 → 奖励模型 规则验证器(确定性)
成本 高(人工标注) 中(API 调用) 低(自动验证)
Reward Hacking 风险
适用领域 通用对齐 通用对齐 可验证领域(数学/代码)
可扩展性 很好

四、强化学习的几个关键算法

4.1 PPO(Proximal Policy Optimization)

核心思想:信任区域优化——每次更新不要让策略变化太大,保证训练稳定。

在 LLM 中的角色:RLHF 的默认优化器(InstructGPT、ChatGPT 都用它)。

RL 问题建模

  • Policy(策略)= 语言模型
  • Action(动作)= 生成下一个 token
  • Reward(奖励)= 奖励模型打分 − KL 惩罚

Token 粒度的优势估计:PPO 通过 Critic 模型预测每个 token 位置的期望 value,然后用 advantage = reward - value 算出每个 token 自己的 advantage。这是 PPO 的理论优势——能区分同一个回答里哪些 token 贡献大、哪些贡献小,实现 token 级别的细粒度 credit assignment。

问题:需要同时维护 4 个模型(策略模型、参考模型、奖励模型、价值模型/Critic),内存开销巨大。而且在 LLM 这种稀疏 reward 场景下,Critic 本身很难学准,实际提供的 token 级信号往往带有大量噪声。

4.2 DPO(Direct Preference Optimization)

核心思想:跳过 RL,直接从人类偏好数据学习,把 RLHF 的目标重新推导为一个监督学习损失。

优势:简单、稳定、不需要 PPO 训练循环。
局限:存在长度偏差;依赖参考模型;从静态数据集学习,无法在线探索。

后续改进:SimPO(去掉参考模型)、KTO(只需二元反馈而非成对比较)、ORPO(合并 SFT 和偏好优化)。

4.3 GRPO(Group Relative Policy Optimization)

核心思想:对 PPO 的简化——去掉 Critic 模型,用「组内相对奖励」来估计优势函数。

算法流程

  1. 对每个 prompt 采样一组回答(通常 16-64 个)
  2. 对每个回答计算奖励
  3. 用组内均值和标准差归一化:A_i = (r_i - mean) / std
  4. 用归一化后的优势更新策略

Token 粒度的取舍:这里藏着 GRPO 最关键的一个 trade-off。GRPO 的 advantage 是序列级的——整个回答共享同一个 advantage 值,然后广播到这个回答里的每一个 token 上做梯度更新。这意味着GRPO 放弃了 token 级别的细粒度 credit assignment:它无法区分"这个回答整体不错,但第 50 个 token 不该选"这种细节,只能给整段回答一个统一的正向或负向信号。

为什么这个取舍是划算的

  • LLM 场景下 PPO 的 Critic 本来就学不准(稀疏 reward + 复杂状态空间),token 级信号更多是噪声而非真信号
  • 数学/代码/格式这类任务的 reward 本质就是序列级属性(整个推理链对不对),强行分配到 token 反而扭曲任务本质
  • 省掉 Critic 节省的算力可以用来增加 group size,靠更多采样降低梯度方差

换句话说,GRPO 用"低精度但准确的序列级信号"替代了 PPO 的"高精度但失真的 token 级信号",在 LLM 场景下反而更稳定。

与 PPO 对比

维度 PPO GRPO
需要的模型数 4(策略+参考+奖励+Critic) 3(无 Critic)
优势估计 学习的 Critic 模型 组内相对奖励
信号粒度 Token 级(理论上细粒度) 序列级(整段回答共享)
Credit assignment 可区分每个 token 的贡献 无法区分,所有 token 共享同一 advantage
内存消耗 显著降低
每个 prompt 采样数 1 16-64

代表工作:DeepSeekMath(首次提出)、DeepSeek-R1(大规模应用)

说人话:PPO 像老师给作文的每个句子单独打分,GRPO 像老师给整篇作文一个总分。前者更精细但老师打分本身就不准,后者更粗糙但至少不会错——在 LLM 场景下粗糙而准确反而比精细而失真更有用。

4.4 DAPO(Dynamic sampling Policy Optimization)

来源:ByteDance & 清华大学,2025(论文)

核心动机:GRPO 在训练长链式思维(long CoT)时存在熵崩溃(模型探索性急剧下降)和训练不稳定的问题。DAPO 针对性地提出四项技术改进:

四个关键技术

技术 解决的问题 做法
Clip-Higher 熵崩溃(模型过早收敛,不再探索) 解耦 PPO clip 的上下阈值——放宽上界(如 0.28),收紧下界(如 0.2),鼓励模型尝试新策略
Dynamic Sampling 全对/全错批次提供不了有效梯度信号 过滤掉组内回答全对或全错的 prompt,只保留有区分度的批次,保证梯度信号一致性
Token-level Policy Gradient Loss 长序列的梯度消失 将策略梯度损失从 sequence 级别改为 token 级别计算,避免长回答被短回答主导
Overlong Reward Shaping 超长回答引入奖励噪声 对超出长度限制的回答施加递减惩罚,而非直接截断,降低奖励噪声

与 GRPO 的关系:DAPO 本质上是 GRPO 的工程增强版,保留了组相对优势估计的核心框架,但解决了 GRPO 在大规模长 CoT 训练中暴露的实际问题。


五、强化学习范式和强化算法的关系

一个容易产生的误解是:GRPO 是为 RLVR 设计的,PPO 只能做 RLHF。这个印象主要是因为 DeepSeek-R1 用的恰好是"GRPO + RLVR"这个组合,让很多人通过 R1 第一次知道 GRPO 时就把两者捆绑在了一起。

但实际上,RL 算法和 reward 来源是两个完全正交的维度

  • Reward 来源(RLHF / RLAIF / RLVR)决定了"reward 从哪里来"——人类标注的 RM、AI 标注的 RM、还是规则验证
  • 优化算法(PPO / GRPO / DPO)决定了"拿到 reward 之后怎么更新模型"

两者可以任意组合:

RLHF (人类 RM) RLAIF (AI RM) RLVR (规则验证)
PPO 经典组合 (InstructGPT) 可行 可行(o1 据信采用)
GRPO 可行 可行 经典组合 (DeepSeek-R1)
DPO 常见 常见 不适用(DPO 依赖偏好对)

注意 DPO 无法做 RLVR,因为 DPO 的本质是在偏好对数据上做监督学习,需要成对的 (chosen, rejected) 标签;而 RLVR 的 reward 是绝对的标量(对或错),没有天然的 pairwise 结构。但 PPO 和 GRPO 两个 RL 算法对所有 reward 来源都通吃。

5.1 为什么 GRPO + RLVR 成为了明星组合

既然 PPO 理论上也能做 RLVR,为什么 R1 时代大家都在用 GRPO + RLVR?有三个现实原因:

1. 工程简化度最高:GRPO 省掉 Critic,RLVR 省掉 RM,两者叠加让原本需要 4 个大模型的 PPO+RLHF 流程降到只需要 2 个模型(Policy + Reference)。显存占用大幅下降,小团队和个人研究者也能跑起来。

2. PPO 的 Critic 在稀疏 reward 下学不准:RLVR 的 reward 通常非常稀疏(只在序列末尾给一个 0 或 1)。PPO 的 Critic 需要从这种稀疏信号里学会给每个 token 位置估计 value,在实践中非常困难——噪声大的 value 估计反而会给训练引入额外的不稳定性。GRPO 直接用组内相对排名替代 Critic,天然避开了这个陷阱。

3. 历史巧合:GRPO 首次出圈就是通过 R1,而 R1 恰好用的是 RLVR。所以大量读者形成了"GRPO = RLVR 专用"的印象,但翻回 DeepSeekMath 原论文会发现 GRPO 最初提出时用的 reward 里既有规则也有学习出来的 RM,它从诞生第一天起就不是专属于规则奖励的算法

5.2 PPO 做 RLVR 的实际案例

OpenAI 的 o1 系列:训练细节从未公开,但业界普遍推测用的是 PPO 变体 + 过程奖励(PRM, Process Reward Model)。PRM 给推理链的每一步打分,让 Critic 有相对稠密的信号可学,从而让 PPO 在稀疏 reward 场景下依然可用。

VinePPO / ReMax 等工作:2024 年出现的一批 PPO 变体,专门针对长序列稀疏 reward 下 Critic 学不准的问题,用蒙特卡洛采样或贪心采样替代 Critic 来估计 value。本质上都是在让 PPO 适配 RLVR 场景。


六、发展路径总结

时间线: 2020-2022 RLHF 时代 ├── InstructGPT:RLHF 三步法(SFT → RM → PPO) ├── ChatGPT:RLHF 应用于对话,引发范式转变 └── 痛点:人工标注贵、奖励模型不可靠、PPO 不稳定 2023-2024 去 RL 化 & 简化 ├── DPO:跳过 RL,直接偏好优化 ├── SimPO / KTO / ORPO:进一步简化 ├── RLAIF:用 AI 替代人类标注 └── GPT o1:RL 训练推理能力,开启 LRM 时代 2024-2025 RLVR 革命 ├── GRPO:去掉 Critic,大幅降低内存 ├── DeepSeek-R1:纯 RLVR 涌现推理,开源里程碑 ├── DAPO:解决长 CoT 训练不稳定性 └── 趋势:从人类反馈 → 可验证奖励,从对齐 → 推理 范式转变: 奖励来源:人类标注 → AI 反馈 → 规则验证器 优化算法:PPO(重) → DPO(轻但静态) → GRPO(轻且在线) 训练目标:对齐人类偏好 → 涌现推理能力


七、强化学习绕不开的难题:Reward Hacking

Reward Hacking 是 RL 训练中的核心挑战——模型学会"钻奖励函数的空子"而非真正完成任务。

在 RLHF 中的典型表现

  • U-Sophistry:模型变得更善于说服评估者认可错误答案
  • 谄媚行为(Sycophancy):模型迎合用户信念而非反映事实
  • 长度偏差:PPO 和 GRPO 都会导致模型生成过长的(错误)回答

Goodhart 定律:当一个度量变成优化目标时,它就不再是好的度量。任何代理奖励都会被 RL 算法利用其不完美之处。

缓解方式

  • KL 散度惩罚(限制探索空间)
  • RLVR 用确定性验证器取代神经奖励模型
  • 多奖励源组合
  • 对抗性训练

我的感悟

2025年以来, 随着scaling law的重心从预训练向后训练以及推理的迁移。后训练的重要性已经越发凸显,其核心就是强化学习(RLVR)。前沿 LLM 的能力差距,越来越多地体现在 RL 后训练的设计和规模上,而不是预训练本身。

网友解答:
--【壹】--:

LLM & Agent 每日论文阅读计划-D3


碎碎念

最近比较忙也是好几天没更新。本来计划第三天去看GRPO的。但是发现牵扯出了PPO、RLVR、RLAIF、RLHF等一大堆我不会的强化学习内容,于是打算从大模型用的强化学习算法开始从头看起。后面继续更新慢慢深入。


今日阅读主题:大模型的强化学习微调

  • 参考资料
    1. Illustrating Reinforcement Learning from Human Feedback (RLHF) - HuggingFace Blog, 2022.12
    2. Post-Training Techniques 2026 - LLM Stats Blog, 2026.03
    3. GRPO: the RL Algorithm Behind DeepSeek-R1 - Cameron R. Wolfe, 2025
    4. The State of LLM Reasoning Model Training - Sebastian Raschka, 2025
    5. Understanding Reasoning LLMs - Sebastian Raschka, 2025
    6. Reward Hacking in Reinforcement Learning - Lilian Weng, 2024.11
    7. AI 101: The State of Reinforcement Learning in 2025 - Turing Post, 2025.12

TL;DR

大模型强化学习微调从 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)出发,经历了 RLHF→RLAIF→RLVR 的范式转变。随着在 DeepSeek-R1 中证明的纯 RL+可验证奖励即可涌现的推理能力,2025 年 RL 在大模型训练流程中的定位已经彻底反转——从偏好对齐的辅助工具跃升为推理能力的核心引擎,后训练的设计和规模正在取代预训练的参数量,成为前沿大模型能力差距的主要来源。


细节阅读

一、为什么要强化学习?

post-training-techniques这篇文章把现代大模型训练过程分成了以下几个阶段:
预训练->监督微调->人类偏好对齐->推理强化学习
image1282×535 29.9 KB
其中强化学习既可以用来做人类偏好对齐也可以用来做推理强化学习。

用途1:偏好对齐

预训练模型经过训练学会了怎么补全文本,但不知道什么回答是「好的」——它可能给出有害内容、编造事实、或风格不合适。传统损失函数(交叉熵)和自动指标(BLEU/ROUGE)都无法捕捉「有帮助、诚实、无害」这类主观且多维的人类偏好。
通过引入强化学习能解决这个问题,这也是早期强化学习范式:基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)和基于 AI 反馈的强化学习(RL from AI Feedback,RLAIF)的主要作用

核心价值:偏好对齐——让模型输出符合人类期望的安全性、有用性和诚实性的回答。

用途2:推理能力涌现

即使对齐了人类偏好,模型在复杂推理(数学证明、多步编程)上仍然薄弱。而强化学习可以让大模型"涌现推理能力。 2025年用于大模型微调强化学习范式最重要的转变是从人类偏好标签转向可验证的推理任务奖励,这就是可验证奖励的强化学习(RL with Verifiable Rewards,RLVR)。RLVR用可自动验证的奖励(答案对不对、代码能不能跑通)作为信号,让模型通过大规模试错自主探索推理策略。DeepSeek-R1 证明了这条路径的威力:纯 RL 训练(无需人类标注推理链)就能让模型涌现出自验证、自纠错、分步推理等能力。

核心价值:能力突破——让模型从「模仿推理」走向「自主推理」,超越训练数据的上限。

SFT vs RL 微调:本质区别

这块我看了一个视频讲的很好:面试官:SFT训练到什么程度,才值得做RL?

视频里主要观点是: 大模型对齐其实分两次。第一次是把预训练的"互联网语言模型"对齐成"对话语言模型"——这一步必须用 SFT,不能直接上 RL。原因是 GPT-3 这种 base 模型优化的是文本补全而不是对话,你问它"中国的首都是",它会继续补全"中国的首都是北京,美国的首都是华盛顿……“。这时候去采样 100 个回答,可能一个真正在回答问题的都没有,reward 全是负的,RL 完全学不起来。所以必须先用 SFT 让模型学会"回答问题"这个基本形式。第二次对齐才是 RL 的舞台——把"会回答"的模型优化成"回答得好、回答得安全"的模型。因为此时对同一个 prompt 会有多个合理回答,质量有高有低,SFT 没法表达"哪个更好”,而 RL 通过 reward model 可以做到。

SFT 切 RL 的判断标准:用 SFT 后的模型对一批 prompt 各采样多个回答,如果 reward 分布相对均匀(有高有低)就可以切 RL;如果 reward 都是低分就继续 SFT。视频里还给了一个参考数据——DeepSeek V2 用了 150 万条 SFT 数据,2 个 epoch,学习率 5e-6,基本能让模型形成稳定的对话能力。

但在2025年初 DeepSeek-R1 发布之后这套逻辑发生了根本转变。 DeepSeek在论文中证明了纯 RL 可以在 base 模型上直接训练,不需要任何 SFT——只要 reward 是规则验证的(答案对错 + 格式检查,同时GRPO 用组内相对优势替代绝对 reward,base 模型就能在 RL 中涌现出反思、回溯、自我验证这些复杂推理行为。这直接颠覆了视频"必须先 SFT 再 RL"的前提。这背后是 scaling law 的迁移:预训练 scaling 已经到了瓶颈期(GPT-4.5、Llama 4 的平淡反响就是证据),而推理时的scaling 还在高速增长——OpenAI 公开说 o3 比 o1 多用 10 倍算力,几乎全部投入在 RL 后训练上。所以 RL 的定位彻底变了:从过去作为"锦上添花"的对齐手段,算力占比只有预训练的 1-5%;到现在"点石成金"的能力引擎,在推理模型训练中的算力消耗已经逼近甚至超过预训练本身。视频里"RL 算力是 SFT 的 2-4 倍"这个经验值在推理模型时代已经完全过时。一句话总结:2025 年前沿 LLM 的能力差距,越来越多地体现在 RL 后训练的设计和规模上,而不是预训练本身。


三、几种强化学习范式RLHF / RLAIF / RLVR 的定义与区别

这三者的核心区别在于奖励信号的来源

3.1 RLHF(Reinforcement Learning from Human Feedback)

定义:用人类反馈训练奖励模型,再用奖励模型指导 RL 优化。

流程(经典三步):

  1. 预训练/SFT:得到一个能回答问题的基础模型
  2. 训练奖励模型(RM):给同一个 prompt 生成多个回答 → 人类标注者排序 → 训练一个打分模型
  3. PPO 微调:用奖励模型的打分作为奖励信号,通过 PPO 优化策略模型

奖励函数设计

r = r_{\text{RM}} - \lambda \cdot D_{\text{KL}}(\pi_{\text{RL}} \| \pi_{\text{init}})

KL 散度惩罚防止模型偏离初始模型太远,避免生成无意义但高分的文本(reward hacking)。

代表工作:InstructGPT (OpenAI, 2022)

3.2 RLAIF(Reinforcement Learning from AI Feedback)

定义:用 AI 模型(而非人类)生成偏好标签或反馈信号。

动机:人类标注成本高、不可扩展;AI 反馈可以大规模自动生成。

典型方式

  • 用强大的 LLM(如 GPT-4)作为评判者,对模型输出打分/排序
  • 合成数据 + 自我对弈(Self-Play)

代表工作:Anthropic Constitutional AI;SPIN(模型区分自身输出与人类文本来自我改进)

3.3 RLVR(Reinforcement Learning with Verifiable Rewards)

定义:用可自动验证的确定性奖励(而非神经网络奖励模型)来训练。

奖励来源

  • 数学题:答案是否正确(符号验证器)
  • 代码:是否通过编译和单元测试
  • 格式:输出是否符合要求

核心优势

  • 完全消除了奖励模型,大幅降低 reward hacking 风险
  • 奖励信号准确、无噪声
  • 使大规模 RL 训练成为可能

代表工作:DeepSeek-R1

三者对比

维度 RLHF RLAIF RLVR
奖励来源 人类标注 → 奖励模型 AI 评判 → 奖励模型 规则验证器(确定性)
成本 高(人工标注) 中(API 调用) 低(自动验证)
Reward Hacking 风险
适用领域 通用对齐 通用对齐 可验证领域(数学/代码)
可扩展性 很好

四、强化学习的几个关键算法

4.1 PPO(Proximal Policy Optimization)

核心思想:信任区域优化——每次更新不要让策略变化太大,保证训练稳定。

在 LLM 中的角色:RLHF 的默认优化器(InstructGPT、ChatGPT 都用它)。

RL 问题建模

  • Policy(策略)= 语言模型
  • Action(动作)= 生成下一个 token
  • Reward(奖励)= 奖励模型打分 − KL 惩罚

Token 粒度的优势估计:PPO 通过 Critic 模型预测每个 token 位置的期望 value,然后用 advantage = reward - value 算出每个 token 自己的 advantage。这是 PPO 的理论优势——能区分同一个回答里哪些 token 贡献大、哪些贡献小,实现 token 级别的细粒度 credit assignment。

问题:需要同时维护 4 个模型(策略模型、参考模型、奖励模型、价值模型/Critic),内存开销巨大。而且在 LLM 这种稀疏 reward 场景下,Critic 本身很难学准,实际提供的 token 级信号往往带有大量噪声。

4.2 DPO(Direct Preference Optimization)

核心思想:跳过 RL,直接从人类偏好数据学习,把 RLHF 的目标重新推导为一个监督学习损失。

优势:简单、稳定、不需要 PPO 训练循环。
局限:存在长度偏差;依赖参考模型;从静态数据集学习,无法在线探索。

后续改进:SimPO(去掉参考模型)、KTO(只需二元反馈而非成对比较)、ORPO(合并 SFT 和偏好优化)。

4.3 GRPO(Group Relative Policy Optimization)

核心思想:对 PPO 的简化——去掉 Critic 模型,用「组内相对奖励」来估计优势函数。

算法流程

  1. 对每个 prompt 采样一组回答(通常 16-64 个)
  2. 对每个回答计算奖励
  3. 用组内均值和标准差归一化:A_i = (r_i - mean) / std
  4. 用归一化后的优势更新策略

Token 粒度的取舍:这里藏着 GRPO 最关键的一个 trade-off。GRPO 的 advantage 是序列级的——整个回答共享同一个 advantage 值,然后广播到这个回答里的每一个 token 上做梯度更新。这意味着GRPO 放弃了 token 级别的细粒度 credit assignment:它无法区分"这个回答整体不错,但第 50 个 token 不该选"这种细节,只能给整段回答一个统一的正向或负向信号。

为什么这个取舍是划算的

  • LLM 场景下 PPO 的 Critic 本来就学不准(稀疏 reward + 复杂状态空间),token 级信号更多是噪声而非真信号
  • 数学/代码/格式这类任务的 reward 本质就是序列级属性(整个推理链对不对),强行分配到 token 反而扭曲任务本质
  • 省掉 Critic 节省的算力可以用来增加 group size,靠更多采样降低梯度方差

换句话说,GRPO 用"低精度但准确的序列级信号"替代了 PPO 的"高精度但失真的 token 级信号",在 LLM 场景下反而更稳定。

与 PPO 对比

维度 PPO GRPO
需要的模型数 4(策略+参考+奖励+Critic) 3(无 Critic)
优势估计 学习的 Critic 模型 组内相对奖励
信号粒度 Token 级(理论上细粒度) 序列级(整段回答共享)
Credit assignment 可区分每个 token 的贡献 无法区分,所有 token 共享同一 advantage
内存消耗 显著降低
每个 prompt 采样数 1 16-64

代表工作:DeepSeekMath(首次提出)、DeepSeek-R1(大规模应用)

说人话:PPO 像老师给作文的每个句子单独打分,GRPO 像老师给整篇作文一个总分。前者更精细但老师打分本身就不准,后者更粗糙但至少不会错——在 LLM 场景下粗糙而准确反而比精细而失真更有用。

4.4 DAPO(Dynamic sampling Policy Optimization)

来源:ByteDance & 清华大学,2025(论文)

核心动机:GRPO 在训练长链式思维(long CoT)时存在熵崩溃(模型探索性急剧下降)和训练不稳定的问题。DAPO 针对性地提出四项技术改进:

四个关键技术

技术 解决的问题 做法
Clip-Higher 熵崩溃(模型过早收敛,不再探索) 解耦 PPO clip 的上下阈值——放宽上界(如 0.28),收紧下界(如 0.2),鼓励模型尝试新策略
Dynamic Sampling 全对/全错批次提供不了有效梯度信号 过滤掉组内回答全对或全错的 prompt,只保留有区分度的批次,保证梯度信号一致性
Token-level Policy Gradient Loss 长序列的梯度消失 将策略梯度损失从 sequence 级别改为 token 级别计算,避免长回答被短回答主导
Overlong Reward Shaping 超长回答引入奖励噪声 对超出长度限制的回答施加递减惩罚,而非直接截断,降低奖励噪声

与 GRPO 的关系:DAPO 本质上是 GRPO 的工程增强版,保留了组相对优势估计的核心框架,但解决了 GRPO 在大规模长 CoT 训练中暴露的实际问题。


五、强化学习范式和强化算法的关系

一个容易产生的误解是:GRPO 是为 RLVR 设计的,PPO 只能做 RLHF。这个印象主要是因为 DeepSeek-R1 用的恰好是"GRPO + RLVR"这个组合,让很多人通过 R1 第一次知道 GRPO 时就把两者捆绑在了一起。

但实际上,RL 算法和 reward 来源是两个完全正交的维度

  • Reward 来源(RLHF / RLAIF / RLVR)决定了"reward 从哪里来"——人类标注的 RM、AI 标注的 RM、还是规则验证
  • 优化算法(PPO / GRPO / DPO)决定了"拿到 reward 之后怎么更新模型"

两者可以任意组合:

RLHF (人类 RM) RLAIF (AI RM) RLVR (规则验证)
PPO 经典组合 (InstructGPT) 可行 可行(o1 据信采用)
GRPO 可行 可行 经典组合 (DeepSeek-R1)
DPO 常见 常见 不适用(DPO 依赖偏好对)

注意 DPO 无法做 RLVR,因为 DPO 的本质是在偏好对数据上做监督学习,需要成对的 (chosen, rejected) 标签;而 RLVR 的 reward 是绝对的标量(对或错),没有天然的 pairwise 结构。但 PPO 和 GRPO 两个 RL 算法对所有 reward 来源都通吃。

5.1 为什么 GRPO + RLVR 成为了明星组合

既然 PPO 理论上也能做 RLVR,为什么 R1 时代大家都在用 GRPO + RLVR?有三个现实原因:

1. 工程简化度最高:GRPO 省掉 Critic,RLVR 省掉 RM,两者叠加让原本需要 4 个大模型的 PPO+RLHF 流程降到只需要 2 个模型(Policy + Reference)。显存占用大幅下降,小团队和个人研究者也能跑起来。

2. PPO 的 Critic 在稀疏 reward 下学不准:RLVR 的 reward 通常非常稀疏(只在序列末尾给一个 0 或 1)。PPO 的 Critic 需要从这种稀疏信号里学会给每个 token 位置估计 value,在实践中非常困难——噪声大的 value 估计反而会给训练引入额外的不稳定性。GRPO 直接用组内相对排名替代 Critic,天然避开了这个陷阱。

3. 历史巧合:GRPO 首次出圈就是通过 R1,而 R1 恰好用的是 RLVR。所以大量读者形成了"GRPO = RLVR 专用"的印象,但翻回 DeepSeekMath 原论文会发现 GRPO 最初提出时用的 reward 里既有规则也有学习出来的 RM,它从诞生第一天起就不是专属于规则奖励的算法

5.2 PPO 做 RLVR 的实际案例

OpenAI 的 o1 系列:训练细节从未公开,但业界普遍推测用的是 PPO 变体 + 过程奖励(PRM, Process Reward Model)。PRM 给推理链的每一步打分,让 Critic 有相对稠密的信号可学,从而让 PPO 在稀疏 reward 场景下依然可用。

VinePPO / ReMax 等工作:2024 年出现的一批 PPO 变体,专门针对长序列稀疏 reward 下 Critic 学不准的问题,用蒙特卡洛采样或贪心采样替代 Critic 来估计 value。本质上都是在让 PPO 适配 RLVR 场景。


六、发展路径总结

时间线: 2020-2022 RLHF 时代 ├── InstructGPT:RLHF 三步法(SFT → RM → PPO) ├── ChatGPT:RLHF 应用于对话,引发范式转变 └── 痛点:人工标注贵、奖励模型不可靠、PPO 不稳定 2023-2024 去 RL 化 & 简化 ├── DPO:跳过 RL,直接偏好优化 ├── SimPO / KTO / ORPO:进一步简化 ├── RLAIF:用 AI 替代人类标注 └── GPT o1:RL 训练推理能力,开启 LRM 时代 2024-2025 RLVR 革命 ├── GRPO:去掉 Critic,大幅降低内存 ├── DeepSeek-R1:纯 RLVR 涌现推理,开源里程碑 ├── DAPO:解决长 CoT 训练不稳定性 └── 趋势:从人类反馈 → 可验证奖励,从对齐 → 推理 范式转变: 奖励来源:人类标注 → AI 反馈 → 规则验证器 优化算法:PPO(重) → DPO(轻但静态) → GRPO(轻且在线) 训练目标:对齐人类偏好 → 涌现推理能力


七、强化学习绕不开的难题:Reward Hacking

Reward Hacking 是 RL 训练中的核心挑战——模型学会"钻奖励函数的空子"而非真正完成任务。

在 RLHF 中的典型表现

  • U-Sophistry:模型变得更善于说服评估者认可错误答案
  • 谄媚行为(Sycophancy):模型迎合用户信念而非反映事实
  • 长度偏差:PPO 和 GRPO 都会导致模型生成过长的(错误)回答

Goodhart 定律:当一个度量变成优化目标时,它就不再是好的度量。任何代理奖励都会被 RL 算法利用其不完美之处。

缓解方式

  • KL 散度惩罚(限制探索空间)
  • RLVR 用确定性验证器取代神经奖励模型
  • 多奖励源组合
  • 对抗性训练

我的感悟

2025年以来, 随着scaling law的重心从预训练向后训练以及推理的迁移。后训练的重要性已经越发凸显,其核心就是强化学习(RLVR)。前沿 LLM 的能力差距,越来越多地体现在 RL 后训练的设计和规模上,而不是预训练本身。