3 docs tagged with "DeepSeek"

DeepSeek-V3.2 模型架构详解

DeepSeek-V3.2 是 DeepSeek 系列的最新模型，引入了许多独特的架构创新，如 MLA（Multi-Head Latent Attention）和 DeepSeekMoE。本文将通过分析其 config.json 配置文件，详细解释每个参数的含义，并计算模型的总参数量。

摘要：GRPO（组相对策略优化）是一种用于大语言模型强化学习的高效算法。该算法由 DeepSeek 团队在 DeepSeekMath 论文中提出，并在 DeepSeek-V3 和 DeepSeek-R1 等高性能模型的训练中发挥了核心作用。GRPO 的核心突破在于：它摒弃了传统 PPO 算法中必须的"评论家"（Critic）模型，通过从"一组"生成的输出中计算相对优势，显著降低了训练时的显存占用和计算成本。

MoE架构详解与代码实现

本文档详细介绍标准 MoE (Standard MoE) 和共享+路由 MoE (Shared + Routed MoE) 两种架构。

DeepSeek-V3.2 模型架构详解

GRPO 组相对策略优化详解

MoE架构详解与代码实现