深度学习为何痴迷标准正态分布
在深度学习里,大家简直是对 (均值为 0,标准差为 1)这种状态有着近乎疯狂的迷恋。
这种特定的正态分布,有一个专门的名字,叫**"标准正态分布" (Standard Normal Distribution)**。
为什么深度学习这么喜欢它?这可不是为了好看,而是为了**"活下去"**。神经网络其实非常脆弱,如果不把数据和参数控制在这个范围内,模型很容易就训练崩了。
一、数据的"统一量纲" —— 打造公平竞技场
想象一下你要训练一个神经网络来预测房价:
- 输入特征 1(房屋面积):可能是 50 到 500 平米。数值很大。
- 输入特征 2(卧室数量):可能是 1 到 5 个。数值很小。
如果你直接把这两个数丢进神经网络(做矩阵乘法 ),面积这个特征的数值太大,它在计算梯度时就会占据主导地位,模型会拼命去学面积,而忽略掉卧室数量。
怎么办?
我们要搞**"标准化" (Normalization)**。把面积和卧室数量都强行拉到同一个起跑线上:
大家都减去自己的平均值,再除以自己的标准差。
经过这一通操作,不管是面积还是卧室数,它们的新均值都变成了 0,新标准差都变成了 1。