Skip to main content

16 docs tagged with "深度学习"

View all tags

Adam 优化器详解

Adam (Adaptive Moment Estimation) 是目前深度学习领域最流行、最常用的优化器,简直就是优化器界的"瑞士军刀"。

GRU 从零实现

GRU(Gated Recurrent Unit,门控循环单元)是 LSTM 的一个"简化进阶版"。

LSTM 从零实现

LSTM (Long Short-Term Memory, 长短期记忆网络) 是序列模型之旅的"最终Boss"。

RNN 从零实现

理解循环神经网络(RNN)的内部机制是掌握深度学习序列模型(如 LSTM、Transformer)的基石。本文将从直观和数学角度介绍 RNN,然后使用 PyTorch 从零实现一个 RNN 模型。

Transformer 完整架构详解与 PyTorch 实现

这是一份完整的 Transformer 架构代码笔记,整合了从底层的多头注意力(QKV)到中间的编码器/解码器块,再到整体架构和掩码机制的所有核心概念。本文包含极其详尽的中文注释,帮助你深入理解 Transformer 的工作原理。

动手学深度学习 (D2L)

《动手学深度学习》是由李沐等人编写的深度学习入门教材,面向中文读者,强调"能运行、可讨论"。本书已被全球 70 多个国家的 500 多所大学采用作为教学教材。

当前主流深度学习架构深度解析

当前深度学习领域,尤其是生成式 AI(AIGC)方向,最主流的架构可以概括为 "Transformer 统治一切,Diffusion 处理多模态",并且两者正在呈现明显的 融合趋势。

梯度下降方法详解

批量梯度下降(BGD)、随机梯度下降(SGD)和小批量梯度下降(Mini-batch SGD)是机器学习(特别是深度学习)中优化算法的基石。为了直观地理解,我们可以使用一个经典的"下山"比喻,结合具体的数学原理来解释。

深度学习中的概率论

你可能觉得概率论没用,是因为现代的深度学习框架(PyTorch/TensorFlow)封装得太好了。

线性回归反向传播推导

线性回归是机器学习中最基础的模型之一。虽然 PyTorch 的 backward() 方法能自动完成复杂的计算图反向传播,但手动推导梯度计算的数学过程,对于理解深度学习的核心原理至关重要。