llm-d Workload Variant Autoscaler

llm-d Workload Variant Autoscaler（WVA）是面向分布式 llm-inference 的 Kubernetes variant autoscaler，用 VariantAutoscaling CRD 把同一模型/InferencePool 下不同硬件、角色、成本或配置的 serving variant 纳入一个全局扩缩决策。详见 src-llm-d-workload-variant-autoscaler-architecture。

架构边界

WVA 不直接替代 HPA/KEDA。它通过 Prometheus、GPU inventory、gateway-api-inference-extension InferencePool、scale target 和 capacity model 计算 desired allocation，然后把 desired/current replica 指标暴露给 HPA/KEDA 这类 autoscaler 执行。

什么时候用

场景	判断
同一模型有多个 serving variant	适合，例如不同 GPU、prefill/decode、batch/interactive 或成本档位。
希望 autoscaling 理解 InferencePool/modelID	适合，比通用 HPA 更有 serving 语义。
只需要单 Deployment CPU/GPU utilization 扩缩	可能 HPA/KEDA 直接够用。
没有 Prometheus/custom metrics 基础设施	需要先补可观测和 metrics API。

维度	llm-d-workload-variant-autoscaler	HPA / KEDA	kserve / Knative autoscaling
决策对象	多 variant allocation	单 workload 或 event source	service/revision/model service
推理语义	modelID / InferencePool / variant cost	通用指标	model serving 生命周期
执行方式	发指标给 HPA/KEDA	scale subresource	controller/autoscaler

选型提示

当 serving fleet 开始出现 prefill/decode 分离、不同 GPU 型号、不同成本档位或不同 SLO 池时，WVA 才有明显价值。单模型单部署阶段先把 model-serving-operator 和普通 autoscaling 跑稳更重要。

架构边界

什么时候用

同类对比

选型提示

相关页面