📄️ Transformer 完整实现
这是一份完整的 Transformer 架构代码笔记,整合了从底层的多头注意力(QKV)到中间的编码器/解码器块,再到整体架构和掩码机制的所有核心概念。本文包含极其详尽的中文注释,帮助你深入理解 Transformer 的工作原 理。
📄️ SFT 有监督微调训练指南
摘要:SFT 全称 Supervised Fine-Tuning(有监督微调),是目前大语言模型(LLM)从"续写小说"进化为"听懂指令的助手"的关键步骤。简单来说,SFT 就是给一个已经读过万卷书(预训练)但不懂规矩的"天才学生",发一本"标准问答习题集",手把手教它怎么正确回答问题。
📄️ DPO 直接偏好优化训练指南
摘要:在 LLM 的训练流程中,SFT 教会了模型"说话",而 DPO(Direct Preference Optimization)则教会了模型"如 何得体地说话"。本文将深入浅出地拆解 DPO 的核心原理、数学本质以及它为何能在 2023 年横空出世后迅速取代复杂的 RLHF (PPO)。
📄️ Engram 条件记忆
本文是对 DeepSeek-AI 论文 《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》 的深度解读。
📄️ GRPO 组相对策略优化详解
摘要:GRPO(组相对策略优化)是一种用于大语言模型强化学习的高效算法。该算法由 DeepSeek 团队在 DeepSeekMath 论文中提出,并在 DeepSeek-V3 和 DeepSeek-R1 等高性能模型的训练中发挥了核心作用。GRPO 的核心突破在于:它摒弃了传统 PPO 算法中必须的"评论家"(Critic)模型,通过从"一组"生成的输出中计算相对优势,显著降低了训练时的显存占用和计算成本。
📄️ PPO 近端策略优化训练指南
摘要:PPO(Proximal Policy Optimization,近端策略优化)是 OpenAI 于 2017 年提出的强化学习算法。如果说 DPO 是现在的"当红炸子鸡",那 PPO 就是打造了 ChatGPT 帝国的"开国元勋"。直到今天,尽管 DPO 流行,但如果你想训练一个逻辑推理能力极强(如 OpenAI o1, DeepSeek-R1)的模型,PPO 依然是绕不过去的高山。
📄️ 注意力机制本质
Transformer 架构中,注意力的本质可以用一句话概括:基于相关性的加权求和(Weighted Sum based on Relevance)。
📄️ DeepSeek-V3.2 架构详解
DeepSeek-V3.2 是 DeepSeek 系列的最新模型,引入了许多独特的架构创新,如 MLA(Multi-Head Latent Attention) 和 DeepSeekMoE。本文将通过分析其 config.json 配置文件,详细解释每个参数的含义,并计算模型的总参数量。
📄️ FlashAttention
1. 概述:它解决了什么问题?
📄️ GPT-2 极简实现
概述
📄️ GQA 分组查询注意力
1. 概述 (Overview)
📄️ KV Cache 推理机制
版本: 2.0 (修订版)
📄️ LN vs BN 对比
层归一化 (Layer Normalization, LN) 和 批归一化 (Batch Normalization, BN) 是深度学习中两种最常用的归一化技术。它们的核心目的都是为了解决 "内部协变量偏移" (Internal Covariate Shift) 问题,从而加速模型收敛并提高训练稳定性。
📄️ 主流 Transformer 架构详解:GPT、BERT、T5
一、架构概述
📄️ 手写带掩码的自注意力机制
GPT 等大模型之所以强大,核心在于它们如何"理解"上下文。而这一切的基石,就藏在不到 20 行的 PyTorch 代码中。
📄️ PagedAttention
PagedAttention 是加州大学伯克利分校(UC Berkeley)团队在 vLLM 项目中提出的核心技术,它彻底改变了 LLM 推理的显存管理方式。
📄️ 绝对位置编码
1. 背景:为什么 Transformer 需要位置编码?