ChatML 格式与常用特殊标记
什么是 ChatML
什么是 ChatML
DeepSeek-V3.2 是 DeepSeek 系列的最新模型,引入了许多独特的架构创新,如 MLA(Multi-Head Latent Attention) 和 DeepSeekMoE。本文将通过分析其 config.json 配置文件,详细解释每个参数的含义,并计算模型的总参数量。
版本: 2.0 (修订版)
本文档详细介绍 标准 MoE (Standard MoE) 和 共享+路由 MoE (Shared + Routed MoE) 两种架构。
RMSNorm (Root Mean Square Normalization) 可以被视为 LayerNorm (Layer Normalization) 的"简化版"或"加速版"。
1. 概述
引言
核心问题
核心概念
本文详细说明工业界主流的 RAG 架构设计思路,摒 弃简单的 naive RAG,采用 混合检索 (Hybrid Search) + 重排序 (Re-rank) 架构,确保检索的高准确率和高召回率。
当前深度学习领域,尤其是生成式 AI(AIGC)方向,最主流的架构可以概括为 "Transformer 统治一切,Diffusion 处理多模态",并且两者正在呈现明显的 融合趋势。