Skip to main content

21 docs tagged with "transformer"

View all tags

DeepSeek-V3.2 模型架构详解

DeepSeek-V3.2 是 DeepSeek 系列的最新模型,引入了许多独特的架构创新,如 MLA(Multi-Head Latent Attention) 和 DeepSeekMoE。本文将通过分析其 config.json 配置文件,详细解释每个参数的含义,并计算模型的总参数量。

RoPE 旋转位置编码

在 Transformer 的架构演进中,位置编码(Positional Embedding)一直是核心话题。从最初的正弦位置编码(Sinusoidal),到可学习的绝对位置编码,再到如今 LLaMA、Mistral 等主流大模型标配的 RoPE (Rotary Positional Embedding),我们一直在寻找一种更优雅的方式告诉模型"我是第几个字"。

Transformer 完整架构详解与 PyTorch 实现

这是一份完整的 Transformer 架构代码笔记,整合了从底层的多头注意力(QKV)到中间的编码器/解码器块,再到整体架构和掩码机制的所有核心概念。本文包含极其详尽的中文注释,帮助你深入理解 Transformer 的工作原理。

层归一化 (LN) vs 批归一化 (BN)

层归一化 (Layer Normalization, LN) 和 批归一化 (Batch Normalization, BN) 是深度学习中两种最常用的归一化技术。它们的核心目的都是为了解决 "内部协变量偏移" (Internal Covariate Shift) 问题,从而加速模型收敛并提高训练稳定性。

当前主流深度学习架构深度解析

当前深度学习领域,尤其是生成式 AI(AIGC)方向,最主流的架构可以概括为 "Transformer 统治一切,Diffusion 处理多模态",并且两者正在呈现明显的 融合趋势。

手写带掩码的自注意力机制

GPT 等大模型之所以强大,核心在于它们如何"理解"上下文。而这一切的基石,就藏在不到 20 行的 PyTorch 代码中。