PyTorch Loss 函数详解
本文详细介绍 PyTorch 中常用的各类 Loss 函数,包括数学原理、代码实现和避坑指南。
本文详细介绍 PyTorch 中常用的各类 Loss 函数,包括数学原理、代码实现和避坑指南。
Transformer 架构中,注意力的本质可以用一句话概括:基于相关性的加权求和(Weighted Sum based on Relevance)。
对应论文: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR 2021)
摘要: 本文档详细剖析了深度学习中两代核心激活函数——Rectified Linear Unit (ReLU) 与 Gaussian Error Linear Unit (GELU) 的异同。我们将从数学定义、概率解释、优化特性及误区澄清四个维度,解释为何 GELU 成为现代大模型(如 BERT, GPT, ViT)的首选。
第一代:经典饱和型 (Saturated)