4 docs tagged with "MoE"

DeepSeek-V3.2 模型架构详解

DeepSeek-V3.2 是 DeepSeek 系列的最新模型，引入了许多独特的架构创新，如 MLA（Multi-Head Latent Attention）和 DeepSeekMoE。本文将通过分析其 config.json 配置文件，详细解释每个参数的含义，并计算模型的总参数量。

以 Qwen/Qwen3-Next-80B-A3B-Thinking-FP8 为例，详细"解剖" Hugging Face 模型仓库中各个文件的作用。

本文档详细介绍标准 MoE (Standard MoE) 和共享+路由 MoE (Shared + Routed MoE) 两种架构。

1. 什么是 Scaling Law