16 篇文档带有标签「深度学习」

Adam vs AdamW：优化器深度对比

从公式和实现层面，深入理解 Adam 和 AdamW 的核心区别。

Adam (Adaptive Moment Estimation) 是目前深度学习领域最流行、最常用的优化器，简直就是优化器界的"瑞士军刀"。

GRU（Gated Recurrent Unit，门控循环单元）是 LSTM 的一个"简化进阶版"。

LSTM (Long Short-Term Memory, 长短期记忆网络) 是序列模型之旅的"最终Boss"。

理解循环神经网络（RNN）的内部机制是掌握深度学习序列模型（如 LSTM、Transformer）的基石。本文将从直观和数学角度介绍 RNN，然后使用 PyTorch 从零实现一个 RNN 模型。

这是一份完整的 Transformer 架构代码笔记，整合了从底层的多头注意力（QKV）到中间的编码器/解码器块，再到整体架构和掩码机制的所有核心概念。本文包含极其详尽的中文注释，帮助你深入理解 Transformer 的工作原理。

《动手学深度学习》是由李沐等人编写的深度学习入门教材，面向中文读者，强调"能运行、可讨论"。本书已被全球 70 多个国家的 500 多所大学采用作为教学教材。

1. 引言

1. 为什么需要参数初始化？

1. 什么是 Scaling Law

当前深度学习领域，尤其是生成式 AI（AIGC）方向，最主流的架构可以概括为 "Transformer 统治一切，Diffusion 处理多模态"，并且两者正在呈现明显的融合趋势。

批量梯度下降（BGD）、随机梯度下降（SGD）和小批量梯度下降（Mini-batch SGD）是机器学习（特别是深度学习）中优化算法的基石。为了直观地理解，我们可以使用一个经典的"下山"比喻，结合具体的数学原理来解释。

什么是梯度裁剪？

你可能觉得概率论没用，是因为现代的深度学习框架（PyTorch/TensorFlow）封装得太好了。

在深度学习里，大家简直是对 $\mu=0, \sigma=1$（均值为 0，标准差为 1）这种状态有着近乎疯狂的迷恋。

线性回归是机器学习中最基础的模型之一。虽然 PyTorch 的 backward() 方法能自动完成复杂的计算图反向传播，但手动推导梯度计算的数学过程，对于理解深度学习的核心原理至关重要。