One doc tagged with "MLA"

DeepSeek-V3.2 模型架构详解

DeepSeek-V3.2 是 DeepSeek 系列的最新模型，引入了许多独特的架构创新，如 MLA（Multi-Head Latent Attention）和 DeepSeekMoE。本文将通过分析其 config.json 配置文件，详细解释每个参数的含义，并计算模型的总参数量。