One doc tagged with "training"

Transformer训练与推理的并行性差异

这是 Transformer 架构中最反直觉、也最核心的问题：既然 Transformer 是一个 token 一个 token 预测的，怎么能说它是并行的？