Skip to main content

5 docs tagged with "attention"

FlashAttention 技术详解

1. 概述：它解决了什么问题？

Grouped Query Attention (GQA)

1. 概述 (Overview)

Transformer 注意力机制的本质

Transformer 架构中，注意力的本质可以用一句话概括：基于相关性的加权求和（Weighted Sum based on Relevance）。

Transformer 绝对位置编码

1. 背景：为什么 Transformer 需要位置编码？

手写带掩码的自注意力机制

GPT 等大模型之所以强大，核心在于它们如何"理解"上下文。而这一切的基石，就藏在不到 20 行的 PyTorch 代码中。