卷积神经网络
在多层感知机出现后,一些常见的回归和分类人物已经能够得到解决了,但是对于图像音频等立体信息依然无法正常解决,因为直接平铺图像信息或者音频信息将会损失非常多的信息。从而找到一种能够在立体信息中进行特征提取的方法显得非常重要。
介绍
卷积神经网络(CNN)的基本结构包含以下几个关键组件:
- 卷积层(Convolution Layer)
- 通过卷积核(kernel/filter)在输入数据上滑动,提取局部特征
- 卷积操作可以有效捕捉空间结构信息
- 参数共享减少了模型参数量
- 激活函数(Activation Function)
- 在卷积层后引入非线性变换,通常使用ReLU
- 增加模型的表达能力
- 池化层(Pooling Layer)
- 对特征图进行降采样,可以是最大池化或平均池化
- 减少参数量,提高计算效率
- 增加特征的平移不变性
- 批归一化(Batch Normalization)
- 通常在卷积层后添加
- 加速训练过程,提高模型稳定性
通过堆叠多个这样的基本单元(卷积-激活-池化),CNN可以逐层提取从低级到高级的特征。最后通过全连接层将特征映射到输出空间,完成分类或其他任务。
这种结构特别适合处理具有空间结构的数据(如图像),因为它可以保持数据的空间关系,并且参数共享机制使得模型更加高效。
常用卷积神经网络
- LeNet (1989)
- 最早提出的经典卷积神经网络之一
- 由Yann LeCun提出,用于手写数字识别(MNIST数据集)
- 包含卷积层、池化层和全连接层的基本结构
- 奠定了现代CNN的基础架构
- AlexNet (2012)
- 在2012 ImageNet竞赛中获得冠军,引发深度学习革命
- 首次证明了深度CNN在大规模视觉识别任务上的效果
- 创新点包括:
- 使用ReLU激活函数
- 使用Dropout防止过拟合
- 使用GPU加速训练
- 在1000个类别上达到了突破性的识别准确率
- ResNet (2015)
- 提出了残差连接(Residual Connection)的创新架构
- 通过跳跃连接解决了深层网络的梯度消失问题
- 首次成功训练超过100层的深度网络
- 主要创新点:
- 残差块设计,使用快捷连接
- 批归一化的广泛应用
- 瓶颈结构减少参数量
- 在ImageNet竞赛上取得了重大突破
- 影响深远,残差结构被广泛应用于各类深度学习模型