跳到主要内容

2 篇文档带有标签「强化学习」

查看所有标签

GRPO 组相对策略优化详解

摘要:GRPO(组相对策略优化)是一种用于大语言模型强化学习的高效算法。该算法由 DeepSeek 团队在 DeepSeekMath 论文中提出,并在 DeepSeek-V3 和 DeepSeek-R1 等高性能模型的训练中发挥了核心作用。GRPO 的核心突破在于:它摒弃了传统 PPO 算法中必须的"评论家"(Critic)模型,通过从"一组"生成的输出中计算相对优势,显著降低了训练时的显存占用和计算成本。

PPO 近端策略优化训练指南

摘要:PPO(Proximal Policy Optimization,近端策略优化)是 OpenAI 于 2017 年提出的强化学习算法。如果说 DPO 是现在的"当红炸子鸡",那 PPO 就是打造了 ChatGPT 帝国的"开国元勋"。直到今天,尽管 DPO 流行,但如果你想训练一个逻辑推理能力极强(如 OpenAI o1, DeepSeek-R1)的模型,PPO 依然是绕不过去的高山。