PagedAttention:vLLM 的显存管理革命PagedAttention 是加州大学伯克利分校(UC Berkeley)团队在 vLLM 项目中提出的核心技术,它彻底改变了 LLM 推理的显存管理方式。