Batch Inference · llm-wiki

Batch inference 指把大量推理请求作为离线或异步任务提交，系统负责排队、持久化、执行、重试、取消、进度追踪和结果归档。它和在线 serving 共用模型服务能力，但关注点不同：在线请求优化 tail latency，batch inference 优化吞吐、可靠性、成本和可审计输出。

和在线 serving 的区别

维度	Batch inference	在线 inference
入口	文件 / job / JSONL / Batch API	HTTP/SSE/gRPC 单请求
用户体验	异步提交，稍后查询结果	同步或 streaming 返回
状态	job status、progress、output/error file	request state、stream state
调度目标	吞吐、成本、重试、可恢复	延迟、排队、公平性、cache hit
代表项目	llm-d-batch-gateway	llm-d, gateway-api-inference-extension, ai-gateway

典型架构

Client uploads JSONL
        │
        ▼
Batch API creates file + job metadata
        │
        ▼
Queue stores executable job refs
        │
        ▼
Processor downloads input and builds execution plans
        │
        ▼
Model serving endpoints process requests under concurrency limits
        │
        ▼
Output/error files are uploaded and job status is finalized

选型提示

如果用户关心“一个请求尽快返回”，看 inference-routing、llm-inference 和 gateway；如果用户关心“几十万条请求稳定跑完、失败可追踪、结果可下载”，就需要 batch-inference 这一层。llm-d-batch-gateway 的价值正在于把 batch job control plane 和下游 llm-d serving fleet 解耦。

和在线 serving 的区别

典型架构

选型提示

相关页面