Skip to main content

11 docs tagged with "LLM"

View all tags

DeepSeek-V3.2 模型架构详解

DeepSeek-V3.2 是 DeepSeek 系列的最新模型,引入了许多独特的架构创新,如 MLA(Multi-Head Latent Attention) 和 DeepSeekMoE。本文将通过分析其 config.json 配置文件,详细解释每个参数的含义,并计算模型的总参数量。

工业级 RAG 架构设计

本文详细说明工业界主流的 RAG 架构设计思路,摒弃简单的 naive RAG,采用 混合检索 (Hybrid Search) + 重排序 (Re-rank) 架构,确保检索的高准确率和高召回率。

当前主流深度学习架构深度解析

当前深度学习领域,尤其是生成式 AI(AIGC)方向,最主流的架构可以概括为 "Transformer 统治一切,Diffusion 处理多模态",并且两者正在呈现明显的 融合趋势。