DeepSeek-V3.2 模型架构详解
DeepSeek-V3.2 是 DeepSeek 系列的最新模型,引入了许多独特的架构创新,如 MLA(Multi-Head Latent Attention) 和 DeepSeekMoE。本文将通过分析其 config.json 配置文件, 详细解释每个参数的含义,并计算模型的总参数量。
DeepSeek-V3.2 是 DeepSeek 系列的最新模型,引入了许多独特的架构创新,如 MLA(Multi-Head Latent Attention) 和 DeepSeekMoE。本文将通过分析其 config.json 配置文件, 详细解释每个参数的含义,并计算模型的总参数量。
以 Qwen/Qwen3-Next-80B-A3B-Thinking-FP8 为例,详细"解剖" Hugging Face 模型仓库中各个文件的作用。
本文档详细介绍 标准 MoE (Standard MoE) 和 共享+路由 MoE (Shared + Routed MoE) 两种架构。
1. 什么是 Scaling Law