跳到主要内容

16 篇文档带有标签「深度学习」

查看所有标签

Adam 优化器详解

Adam (Adaptive Moment Estimation) 是目前深度学习领域最流行、最常用的优化器,简直就是优化器界的"瑞士军刀"。

GRU 从零实现

GRU(Gated Recurrent Unit,门控循环单元)是 LSTM 的一个"简化进阶版"。

LSTM 从零实现

LSTM (Long Short-Term Memory, 长短期记忆网络) 是序列模型之旅的"最终Boss"。

RNN 从零实现

理解循环神经网络(RNN)的内部机制是掌握深度学习序列模型(如 LSTM、Transformer)的基石。本文将从直观和数学角度介绍 RNN,然后使用 PyTorch 从零实现一个 RNN 模型。

Transformer 完整架构详解与 PyTorch 实现

这是一份完整的 Transformer 架构代码笔记,整合了从底层的多头注意力(QKV)到中间的编码器/解码器块,再到整体架构和掩码机制的所有核心概念。本文包含极其详尽的中文注释,帮助你深入理解 Transformer 的工作原理。

动手学深度学习 (D2L)

《动手学深度学习》是由李沐等人编写的深度学习入门教材,面向中文读者,强调"能运行、可讨论"。本书已被全球 70 多个国家的 500 多所大学采用作为教学教材。

当前主流深度学习架构深度解析

当前深度学习领域,尤其是生成式 AI(AIGC)方向,最主流的架构可以概括为 "Transformer 统治一切,Diffusion 处理多模态",并且两者正在呈现明显的 融合趋势。

梯度下降方法详解

批量梯度下降(BGD)、随机梯度下降(SGD)和小批量梯度下降(Mini-batch SGD)是机器学习(特别是深度学习)中优化算法的基石。为了直观地理解,我们可以使用一个经典的"下山"比喻,结合具体的数学原理来解释。

深度学习中的概率论

你可能觉得概率论没用,是因为现代的深度学习框架(PyTorch/TensorFlow)封装得太好了。

线性回归反向传播推导

线性回归是机器学习中最基础的模型之一。虽然 PyTorch 的 backward() 方法能自动完成复杂的计算图反向传播,但手动推导梯度计算的数学过程,对于理解深度学习的核心原理至关重要。