跳到主要内容

卷积神经网络

在多层感知机出现后,一些常见的回归和分类人物已经能够得到解决了,但是对于图像音频等立体信息依然无法正常解决,因为直接平铺图像信息或者音频信息将会损失非常多的信息。从而找到一种能够在立体信息中进行特征提取的方法显得非常重要。

介绍

卷积神经网络(CNN)的基本结构包含以下几个关键组件:

  1. 卷积层(Convolution Layer)
  • 通过卷积核(kernel/filter)在输入数据上滑动,提取局部特征
  • 卷积操作可以有效捕捉空间结构信息
  • 参数共享减少了模型参数量
  1. 激活函数(Activation Function)
  • 在卷积层后引入非线性变换,通常使用ReLU
  • 增加模型的表达能力
  1. 池化层(Pooling Layer)
  • 对特征图进行降采样,可以是最大池化或平均池化
  • 减少参数量,提高计算效率
  • 增加特征的平移不变性
  1. 批归一化(Batch Normalization)
  • 通常在卷积层后添加
  • 加速训练过程,提高模型稳定性

通过堆叠多个这样的基本单元(卷积-激活-池化),CNN可以逐层提取从低级到高级的特征。最后通过全连接层将特征映射到输出空间,完成分类或其他任务。

这种结构特别适合处理具有空间结构的数据(如图像),因为它可以保持数据的空间关系,并且参数共享机制使得模型更加高效。

常用卷积神经网络

  1. LeNet (1989)
  • 最早提出的经典卷积神经网络之一
  • 由Yann LeCun提出,用于手写数字识别(MNIST数据集)
  • 包含卷积层、池化层和全连接层的基本结构
  • 奠定了现代CNN的基础架构
  1. AlexNet (2012)
  • 在2012 ImageNet竞赛中获得冠军,引发深度学习革命
  • 首次证明了深度CNN在大规模视觉识别任务上的效果
  • 创新点包括:
    • 使用ReLU激活函数
    • 使用Dropout防止过拟合
    • 使用GPU加速训练
  • 在1000个类别上达到了突破性的识别准确率
  1. ResNet (2015)
  • 提出了残差连接(Residual Connection)的创新架构
  • 通过跳跃连接解决了深层网络的梯度消失问题
  • 首次成功训练超过100层的深度网络
  • 主要创新点:
    • 残差块设计,使用快捷连接
    • 批归一化的广泛应用
    • 瓶颈结构减少参数量
  • 在ImageNet竞赛上取得了重大突破
  • 影响深远,残差结构被广泛应用于各类深度学习模型