跳到主要内容

5 篇文档带有标签「RLHF」

查看所有标签

DPO 直接偏好优化训练指南

摘要:在 LLM 的训练流程中,SFT 教会了模型"说话",而 DPO(Direct Preference Optimization)则教会了模型"如何得体地说话"。本文将深入浅出地拆解 DPO 的核心原理、数学本质以及它为何能在 2023 年横空出世后迅速取代复杂的 RLHF (PPO)。

GRPO 组相对策略优化详解

摘要:GRPO(组相对策略优化)是一种用于大语言模型强化学习的高效算法。该算法由 DeepSeek 团队在 DeepSeekMath 论文中提出,并在 DeepSeek-V3 和 DeepSeek-R1 等高性能模型的训练中发挥了核心作用。GRPO 的核心突破在于:它摒弃了传统 PPO 算法中必须的"评论家"(Critic)模型,通过从"一组"生成的输出中计算相对优势,显著降低了训练时的显存占用和计算成本。

PPO 近端策略优化训练指南

摘要:PPO(Proximal Policy Optimization,近端策略优化)是 OpenAI 于 2017 年提出的强化学习算法。如果说 DPO 是现在的"当红炸子鸡",那 PPO 就是打造了 ChatGPT 帝国的"开国元勋"。直到今天,尽管 DPO 流行,但如果你想训练一个逻辑推理能力极强(如 OpenAI o1, DeepSeek-R1)的模型,PPO 依然是绕不过去的高山。

SFT 有监督微调训练指南

摘要:SFT 全称 Supervised Fine-Tuning(有监督微调),是目前大语言模型(LLM)从"续写小说"进化为"听懂指令的助手"的关键步骤。简单来说,SFT 就是给一个已经读过万卷书(预训练)但不懂规矩的"天才学生",发一本"标准问答习题集",手把手教它怎么正确回答问题。