Transformer训练与推理的并行性差异这是 Transformer 架构中最反直觉、也最核心的问题:既然 Transformer 是一个 token 一个 token 预测的,怎么能说它是并行的?