训练核心概念

📄️ 参数初始化指南

1. 为什么需要参数初始化？

本文详细介绍 PyTorch 中常用的各类 Loss 函数，包括数学原理、代码实现和避坑指南。

什么是K折验证

1. 准确率（Accuracy）

什么是自动微分（Autograd）

2024年诺贝尔物理学奖杯幸顿教授获得，获得的原因是反向传播算法促成了多层次神经网络的搭建成为可能。所以什么是反向传播算法，他的意义到底是什么。

什么是 Batch Normalization？

计算图(Computational Graph)是一个有向无环图(DAG)，用于表示计算过程中各个操作和数据之间的依赖关系。在深度学习中，它特别重要，因为：

正向传播是指输入数据通过神经网络从输入层到输出层的传递过程。在这个过程中，输入数据经过各层的线性变换和激活函数的非线性变换，最终生成模型的输出。

线性回归是机器学习中最基础的模型之一。虽然 PyTorch 的 backward() 方法能自动完成复杂的计算图反向传播，但手动推导梯度计算的数学过程，对于理解深度学习的核心原理至关重要。

1. θ（模型参数）

引言

在深度神经网络中，梯度消失和梯度爆炸是两个常见的问题。这些问题会严重影响模型的训练效果。其中，tanh和sigmoid作为早期的激活函数，天然就存在梯度消失问题。从下图可以看到，当输入值x过大或过小时，这些激活函数的梯度会趋近于0，导致梯度消失。因此在使用这些激活函数时，需要特别注意以下几点：

这两个技术都涉及"归一化"，但作用完全不同。