权重衰减(Weight Decay)简介
什么是权重衰减
权重衰减是深度学习中一种重要的正则化技术,通过在训练过程中逐渐减小模型权重的大小,防止模型过拟合,提高泛化能力。它相当于在损失函数中添加了一个惩罚项,使得权重不会过大。
简而言之,权重衰退就是让权重 w 往 0 的方向拉,从而保证其上下一致,从而表现稳定,因为如果 w 参数各异,实际上模型是不稳定的,也就是曲线是不平滑的。
数学原理
在标准的损失函数基础上,权重衰减添加了一个正则化项:
其中:
- L₀ 是原始损失函数(如交叉熵损失)
- λ 是权重衰减系数,控制正则化强度
- ||w||² 是所有权重参数的L2范数平方
在梯度下降更新时,权重更新公式变为: