跳到主要内容

1 篇文档带有标签「ReLU」

查看所有标签

深度解析:ReLU 与 GELU 的全面对比

摘要: 本文档详细剖析了深度学习中两代核心激活函数——Rectified Linear Unit (ReLU) 与 Gaussian Error Linear Unit (GELU) 的异同。我们将从数学定义、概率解释、优化特性及误区澄清四个维度,解释为何 GELU 成为现代大模型(如 BERT, GPT, ViT)的首选。