PagedAttention:vLLM 的显存管理革命PagedAttention 是加州大学伯克利分校(UC Berkeley)团队在 vLLM 项目中提出的核心技术,它彻底改变了 LLM 推理的显存管理方式。
Transformer训练与推理的并行性差异这是 Transformer 架构中最反直觉、也最核心的问题:既然 Transformer 是一个 token 一个 token 预测的,怎么能说它是并行的?