8 docs tagged with "PyTorch"

Adam vs AdamW：优化器深度对比

从公式和实现层面，深入理解 Adam 和 AdamW 的核心区别。

Adam (Adaptive Moment Estimation) 是目前深度学习领域最流行、最常用的优化器，简直就是优化器界的"瑞士军刀"。

GRU（Gated Recurrent Unit，门控循环单元）是 LSTM 的一个"简化进阶版"。

LSTM (Long Short-Term Memory, 长短期记忆网络) 是序列模型之旅的"最终Boss"。

理解循环神经网络（RNN）的内部机制是掌握深度学习序列模型（如 LSTM、Transformer）的基石。本文将从直观和数学角度介绍 RNN，然后使用 PyTorch 从零实现一个 RNN 模型。

这是一份完整的 Transformer 架构代码笔记，整合了从底层的多头注意力（QKV）到中间的编码器/解码器块，再到整体架构和掩码机制的所有核心概念。本文包含极其详尽的中文注释，帮助你深入理解 Transformer 的工作原理。

这是一个工业级标准的双塔模型（Two-Tower）完整代码示例，使用 PyTorch 定义模型，使用 Faiss（Meta 开源的向量检索库）做召回索引。

线性回归是机器学习中最基础的模型之一。虽然 PyTorch 的 backward() 方法能自动完成复杂的计算图反向传播，但手动推导梯度计算的数学过程，对于理解深度学习的核心原理至关重要。