llm-wiki wiki · entities 2026-06-12

Kubernetes 标准化 model serving 平台,围绕 InferenceService、LLMInferenceService、LocalModel、controllers、webhooks 和 router 组织。详见 src-kserve-architecture

架构边界

KServe 是模型服务平台和 operator,不是推理 engine。它把预测式模型服务与 GenAI/LLM serving 放到统一 K8s API 下,适合和 omekubeaigpustack 放在 model-serving-operator 概念下比较。

选型判断

适合:需要成熟 K8s model serving API、controller/webhook、Knative/RawDeployment 等部署形态。

不适合:只想优化单模型推理 kernel 或 KV cache 算法;这些看 vllmsglangkv-cache-offload