llm-wiki wiki · concepts 2026-06-13

Batch inference 指把大量推理请求作为离线或异步任务提交,系统负责排队、持久化、执行、重试、取消、进度追踪和结果归档。它和在线 serving 共用模型服务能力,但关注点不同:在线请求优化 tail latency,batch inference 优化吞吐、可靠性、成本和可审计输出。

和在线 serving 的区别

维度 Batch inference 在线 inference
入口 文件 / job / JSONL / Batch API HTTP/SSE/gRPC 单请求
用户体验 异步提交,稍后查询结果 同步或 streaming 返回
状态 job status、progress、output/error file request state、stream state
调度目标 吞吐、成本、重试、可恢复 延迟、排队、公平性、cache hit
代表项目 llm-d-batch-gateway llm-d, gateway-api-inference-extension, ai-gateway

典型架构

Client uploads JSONL
        │
        ▼
Batch API creates file + job metadata
        │
        ▼
Queue stores executable job refs
        │
        ▼
Processor downloads input and builds execution plans
        │
        ▼
Model serving endpoints process requests under concurrency limits
        │
        ▼
Output/error files are uploaded and job status is finalized

选型提示

如果用户关心“一个请求尽快返回”,看 inference-routingllm-inference 和 gateway;如果用户关心“几十万条请求稳定跑完、失败可追踪、结果可下载”,就需要 batch-inference 这一层。llm-d-batch-gateway 的价值正在于把 batch job control plane 和下游 llm-d serving fleet 解耦。