21 docs tagged with "transformer"

DeepSeek-V3.2 模型架构详解

DeepSeek-V3.2 是 DeepSeek 系列的最新模型，引入了许多独特的架构创新，如 MLA（Multi-Head Latent Attention）和 DeepSeekMoE。本文将通过分析其 config.json 配置文件，详细解释每个参数的含义，并计算模型的总参数量。

FlashAttention 技术详解

1. 概述：它解决了什么问题？

Grouped Query Attention (GQA)

1. 概述 (Overview)

LLM 推理技术详解：KV Cache 标准机制

版本： 2.0 (修订版)

PagedAttention：vLLM 的显存管理革命

PagedAttention 是加州大学伯克利分校（UC Berkeley）团队在 vLLM 项目中提出的核心技术，它彻底改变了 LLM 推理的显存管理方式。

RMSNorm (Root Mean Square Normalization)

RMSNorm (Root Mean Square Normalization) 可以被视为 LayerNorm (Layer Normalization) 的"简化版"或"加速版"。

RoPE 旋转位置编码

在 Transformer 的架构演进中，位置编码（Positional Embedding）一直是核心话题。从最初的正弦位置编码（Sinusoidal），到可学习的绝对位置编码，再到如今 LLaMA、Mistral 等主流大模型标配的 RoPE (Rotary Positional Embedding)，我们一直在寻找一种更优雅的方式告诉模型"我是第几个字"。

SwiGLU (Swish-Gated Linear Unit)

1. 概述

Transformer 完整架构详解与 PyTorch 实现

这是一份完整的 Transformer 架构代码笔记，整合了从底层的多头注意力（QKV）到中间的编码器/解码器块，再到整体架构和掩码机制的所有核心概念。本文包含极其详尽的中文注释，帮助你深入理解 Transformer 的工作原理。

Transformer 注意力机制的本质

Transformer 架构中，注意力的本质可以用一句话概括：基于相关性的加权求和（Weighted Sum based on Relevance）。

Transformer 绝对位置编码

1. 背景：为什么 Transformer 需要位置编码？

Transformer训练与推理的并行性差异

这是 Transformer 架构中最反直觉、也最核心的问题：既然 Transformer 是一个 token 一个 token 预测的，怎么能说它是并行的？

Vision Transformer (ViT) 深度解析

对应论文： An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR 2021)

Weight Sharing (权重共享)

1. 概述 (Overview)

YaRN 上下文窗口扩展

适用对象: AI 研究员、大型模型工程师、深度学习开发者

为什么 BPE 成为主流分词方法？深度技术解析

核心问题

分词与Embedding：从文本到向量的两个关键步骤

核心概念

参数初始化实用指南

1. 为什么需要参数初始化？

层归一化 (LN) vs 批归一化 (BN)

层归一化 (Layer Normalization, LN) 和批归一化 (Batch Normalization, BN) 是深度学习中两种最常用的归一化技术。它们的核心目的都是为了解决 "内部协变量偏移" (Internal Covariate Shift) 问题，从而加速模型收敛并提高训练稳定性。

当前主流深度学习架构深度解析

当前深度学习领域，尤其是生成式 AI（AIGC）方向，最主流的架构可以概括为 "Transformer 统治一切，Diffusion 处理多模态"，并且两者正在呈现明显的融合趋势。

手写带掩码的自注意力机制

GPT 等大模型之所以强大，核心在于它们如何"理解"上下文。而这一切的基石，就藏在不到 20 行的 PyTorch 代码中。