跳到主要内容

3 篇文档带有标签「inference」

查看所有标签

LLM 推理技术详解：KV Cache 标准机制

版本： 2.0 (修订版)

PagedAttention：vLLM 的显存管理革命

PagedAttention 是加州大学伯克利分校（UC Berkeley）团队在 vLLM 项目中提出的核心技术，它彻底改变了 LLM 推理的显存管理方式。

Transformer训练与推理的并行性差异

这是 Transformer 架构中最反直觉、也最核心的问题：既然 Transformer 是一个 token 一个 token 预测的，怎么能说它是并行的？