Skip to main content

One doc tagged with "MLA"

View all tags

DeepSeek-V3.2 模型架构详解

DeepSeek-V3.2 是 DeepSeek 系列的最新模型,引入了许多独特的架构创新,如 MLA(Multi-Head Latent Attention) 和 DeepSeekMoE。本文将通过分析其 config.json 配置文件,详细解释每个参数的含义,并计算模型的总参数量。