llm-wiki wiki · concepts 2026-05-15

vllm 论文(Kwon et al., SOSP 2023)提出的 block 级 KV 缓存管理机制。把 OS 虚存分页思想(按页分配 + 页表映射)搬到 LLM KV cache,16 token 为一个 block,每个请求用 block table 记录"逻辑序列位置 → 物理 block"映射。

核心思想

传统 (HF transformers):
  按 max_seq_len 预分配 KV         浪费严重
  ──────────────────────────────
  [req0  used  ][   unused   ]
  [req1 used][        unused        ]

PagedAttention:
  按 block 按需分配                几乎无浪费
  Block 0: ████████████████ (16 tokens)
  Block 1: ████████████░░░░ (12 tokens used)
  Block 2: ░░░░░░░░░░░░░░░░ (free)

  Block Table per req:
    req0: [B0, B1]
    req1: [B0, B2]   ← 共享 system prompt 在 B0

关键机制

工程影响

局限与 radix-attention 的对比

radix-attentionsglang 提出)通过 token 级 radix 树 + flat KV pool 解决这些限制。

出处

Kwon et al., "Efficient Memory Management for Large Language Model Serving with PagedAttention", SOSP 2023。