多层感知机
多层感知机(Multi-Layer Perceptron, MLP)是深度学习中最基础的神经网络结构。随着深度学习的发展,研究者发现单层感知机在处理复杂特征提取任务时存在局限性。通过引入多个隐藏层和非线性激活函数,MLP能够学习更加复杂的特征表示,为深度学习的发展奠定了重要基础。其核心创新包括:
- 多层结构
- 输入层
- 一个或多个隐藏层
- 输出层
- 关键要素
- 全连接层实现特征变换
- 非线性激活函数引入非线性能力
- 反向传播算法实现参数优化
这种层次化的结构设计为后续各类深度学习模型提供了基本范式。
介绍
- 基本结构
- 输入层: 接收原始数据
- 隐藏层: 通过权重矩阵和激活函数进行特征变换
- 输出层: 映射到目标空间
- 前向传播
- 线性变换: z = Wx + b
- W: 权重矩阵
- x: 输入向量
- b: 偏置项
- 非线性激活: a = f(z)
- f: 激活函数(如ReLU、Sigmoid等)
- a: 激活后的输出
- 反向传播
- 计算损失函数对各层参数的梯度
- 使用梯度下降法更新参数
- 通过链式法则传递梯度
代码
https://github.com/Hao-yiwen/deeplearning/blob/master/pytorch/week3/practise_3_mlp.ipynb