AIBrix
vLLM 生态的 Kubernetes GenAI inference infrastructure,覆盖 gateway/routing、PodAutoscaler、ModelAdapter、KV cache/event sync、LoRA、distributed inference、GPU failure detection。详见 src-aibrix-architecture。
架构边界
AIBrix 不是新的推理引擎,而是把 vllm 等引擎放到 K8s 上运行时需要的 control plane。它和 dynamo 的区别在于:Dynamo 更强调分离式 P/D、KV-aware router 和多级 KV cache 的统一 runtime;AIBrix 更贴近 vLLM 生态和 K8s 组件化控制面。