Transformer | yiwen

📄️ Transformer 完整实现

这是一份完整的 Transformer 架构代码笔记，整合了从底层的多头注意力（QKV）到中间的编码器/解码器块，再到整体架构和掩码机制的所有核心概念。本文包含极其详尽的中文注释，帮助你深入理解 Transformer 的工作原理。

📄️ SFT 有监督微调训练指南

摘要：SFT 全称 Supervised Fine-Tuning（有监督微调），是目前大语言模型（LLM）从"续写小说"进化为"听懂指令的助手"的关键步骤。简单来说，SFT 就是给一个已经读过万卷书（预训练）但不懂规矩的"天才学生"，发一本"标准问答习题集"，手把手教它怎么正确回答问题。

📄️ DPO 直接偏好优化训练指南

摘要：在 LLM 的训练流程中，SFT 教会了模型"说话"，而 DPO（Direct Preference Optimization）则教会了模型"如何得体地说话"。本文将深入浅出地拆解 DPO 的核心原理、数学本质以及它为何能在 2023 年横空出世后迅速取代复杂的 RLHF (PPO)。

📄️ Engram 条件记忆

本文是对 DeepSeek-AI 论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》的深度解读。

摘要：GRPO（组相对策略优化）是一种用于大语言模型强化学习的高效算法。该算法由 DeepSeek 团队在 DeepSeekMath 论文中提出，并在 DeepSeek-V3 和 DeepSeek-R1 等高性能模型的训练中发挥了核心作用。GRPO 的核心突破在于：它摒弃了传统 PPO 算法中必须的"评论家"（Critic）模型，通过从"一组"生成的输出中计算相对优势，显著降低了训练时的显存占用和计算成本。

📄️ PPO 近端策略优化训练指南

摘要：PPO（Proximal Policy Optimization，近端策略优化）是 OpenAI 于 2017 年提出的强化学习算法。如果说 DPO 是现在的"当红炸子鸡"，那 PPO 就是打造了 ChatGPT 帝国的"开国元勋"。直到今天，尽管 DPO 流行，但如果你想训练一个逻辑推理能力极强（如 OpenAI o1, DeepSeek-R1）的模型，PPO 依然是绕不过去的高山。

📄️ 注意力机制本质

Transformer 架构中，注意力的本质可以用一句话概括：基于相关性的加权求和（Weighted Sum based on Relevance）。

📄️ DeepSeek-V3.2 架构详解

DeepSeek-V3.2 是 DeepSeek 系列的最新模型，引入了许多独特的架构创新，如 MLA（Multi-Head Latent Attention）和 DeepSeekMoE。本文将通过分析其 config.json 配置文件，详细解释每个参数的含义，并计算模型的总参数量。

📄️ FlashAttention

1. 概述：它解决了什么问题？

📄️ GPT-2 极简实现

概述

📄️ GQA 分组查询注意力

1. 概述 (Overview)

📄️ KV Cache 推理机制

版本： 2.0 (修订版)

📄️ LN vs BN 对比

层归一化 (Layer Normalization, LN) 和批归一化 (Batch Normalization, BN) 是深度学习中两种最常用的归一化技术。它们的核心目的都是为了解决 "内部协变量偏移" (Internal Covariate Shift) 问题，从而加速模型收敛并提高训练稳定性。

📄️ 主流 Transformer 架构详解：GPT、BERT、T5

一、架构概述

📄️ 手写带掩码的自注意力机制

GPT 等大模型之所以强大，核心在于它们如何"理解"上下文。而这一切的基石，就藏在不到 20 行的 PyTorch 代码中。

📄️ PagedAttention

PagedAttention 是加州大学伯克利分校（UC Berkeley）团队在 vLLM 项目中提出的核心技术，它彻底改变了 LLM 推理的显存管理方式。

📄️ 绝对位置编码

1. 背景：为什么 Transformer 需要位置编码？

📄️ RMSNorm 均方根归一化

RMSNorm (Root Mean Square Normalization) 可以被视为 LayerNorm (Layer Normalization) 的"简化版"或"加速版"。

📄️ RoPE 旋转位置编码

在 Transformer 的架构演进中，位置编码（Positional Embedding）一直是核心话题。从最初的正弦位置编码（Sinusoidal），到可学习的绝对位置编码，再到如今 LLaMA、Mistral 等主流大模型标配的 RoPE (Rotary Positional Embedding)，我们一直在寻找一种更优雅的方式告诉模型"我是第几个字"。

📄️ SwiGLU 门控线性单元

1. 概述

📄️ Transformer基础架构

Transformer是一种基于自注意力机制的神经网络架构，作为现代大语言模型的基础架构。它通过多头注意力机制和位置编码来捕获序列中的长距离依赖关系，能够有效处理自然语言处理中的各类任务。

📄️ Vision Transformer

对应论文： An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR 2021)

📄️ Weight Sharing 权重共享