llm-wiki wiki · entities 2026-05-15

UC Berkeley Sky Computing Lab 开源的 LLM 推理与 serving 引擎。 Apache 2.0,最早把 paged-attention 引入开源界(SOSP 2023 论文),是目前最广泛使用的 LLM serving 框架之一。

一句话定位

LLM serving 的"事实标准基线":用 paged-attention 把 KV 缓存按 16-token block 管理(类比 OS 虚存分页),把 GPU 显存从"按最大 seq_len 预分配"改成"按需 block 分配 + block table 映射",让吞吐量数倍于 HuggingFace transformers。后来的 sglang / TensorRT-LLM / TGI 都把 vLLM 当对标。

关键能力(与 sglang 对照)

维度 vLLM sglang
KV 缓存粒度 16-token block(paged-attention token 级(radix-attention
前缀共享 整 block 才能 share,碎片化严重 任意分叉点自动 share
投机解码 EAGLE / Medusa(少量) 7 算法(EAGLE / NGRAM / MTP / DFLASH / Standalone / 多层 EAGLE / v2)
P/D 分离 实验性 生产级 + 5 transfer backend
Attention 后端 FlashAttn / xFormers / TorchSDPA 10+ 后端
结构化输出 outlines 4 backend
协议入口 OpenAI OpenAI / Anthropic / Ollama / gRPC / Engine
国产硬件 实验 Ascend NPU 一等公民
生态广度 最大(HF 模型几乎全支持) 追赶中

历史与影响

与 SGLang 的差异点(基于 sglang 架构分析)