GRPO (Group Relative Policy Optimization) 详解
摘要:GRPO(组相对策略优化)是一种用于大语言模型强化学习的高效算法。该算法由 DeepSeek 团队在 DeepSeekMath 论文中提出,并在 DeepSeek-V3 和 DeepSeek-R1 等高性能模型的训练中发挥了核心作用。GRPO 的核心突破在于:它摒弃了传统 PPO 算法中必须的"评论家"(Critic)模型,通过从"一组"生成的输出中计算相对优势,显著降低了训练时的显存占用和计算成本。
1. 背景与动机
在传统的 RLHF(Reinforcement Learning from Human Feedback)流程中,PPO 是主流算法。然而,PPO 在训练超大参数量的 LLM 时面临巨大的资源瓶颈。
1.1 PPO 的痛点
标准的 PPO 训练通常需要维护四个模型:
- Actor (策略模型): 正在训练的模型。
- Reference (参考模型): 用于计算 KL 散度,防止模型跑偏。
- Reward (奖励模型): 用于打分。
- Critic (价值模型/评论家): 用于估计当前状态的价值 ,以计算优势函数(Advantage)。
问题在于: Critic 模型通常与 Actor 模型大小相当。如果 Actor 是一个 70B 的模型,Critic 也需要是 70B。这意味着训练时的显存需求几乎翻倍,且增加了计算和通信开销。