DeepSeek-V3.2 模型架构详解
DeepSeek-V3.2 是 DeepSeek 系列的最新模型,引入了许多独特的架构创新,如 MLA(Multi-Head Latent Attention) 和 DeepSeekMoE。本文将通过分析其 config.json 配置文件,详 细解释每个参数的含义,并计算模型的总参数量。
DeepSeek-V3.2 是 DeepSeek 系列的最新模型,引入了许多独特的架构创新,如 MLA(Multi-Head Latent Attention) 和 DeepSeekMoE。本文将通过分析其 config.json 配置文件,详 细解释每个参数的含义,并计算模型的总参数量。