跳到主要内容

多层感知机

多层感知机(Multi-Layer Perceptron, MLP)是深度学习中最基础的神经网络结构。随着深度学习的发展,研究者发现单层感知机在处理复杂特征提取任务时存在局限性。通过引入多个隐藏层和非线性激活函数,MLP能够学习更加复杂的特征表示,为深度学习的发展奠定了重要基础。其核心创新包括:

  1. 多层结构
  • 输入层
  • 一个或多个隐藏层
  • 输出层
  1. 关键要素
  • 全连接层实现特征变换
  • 非线性激活函数引入非线性能力
  • 反向传播算法实现参数优化

这种层次化的结构设计为后续各类深度学习模型提供了基本范式。

介绍

  1. 基本结构
  • 输入层: 接收原始数据
  • 隐藏层: 通过权重矩阵和激活函数进行特征变换
  • 输出层: 映射到目标空间
  1. 前向传播
  • 线性变换: z = Wx + b
    • W: 权重矩阵
    • x: 输入向量
    • b: 偏置项
  • 非线性激活: a = f(z)
    • f: 激活函数(如ReLU、Sigmoid等)
    • a: 激活后的输出
  1. 反向传播
  • 计算损失函数对各层参数的梯度
  • 使用梯度下降法更新参数
  • 通过链式法则传递梯度

代码

https://github.com/Hao-yiwen/deeplearning/blob/master/pytorch/week3/practise_3_mlp.ipynb