GPUStack · llm-wiki

GPUStack 是 GPU cluster manager / model serving platform，用 Python server/worker/scheduler/gateway 组织 vLLM / SGLang 等后端，并提供 GPU 资源管理、模型服务和 observability。详见 src-gpustack-architecture。

架构边界

它更偏一体化 GPU 集群与模型服务平台；kserve 更偏 Kubernetes 标准 model serving API，ome / kubeai 更偏 operator/control plane。GPUStack 的重点是把资源发现、调度和服务入口打包成可直接使用的平台。

选型判断

适合希望从 GPU 资源管理直接走到 LLM serving 的团队。不适合只研究 Kubernetes 原生 CRD/operator 标准形态，此时看 kserve、ome 或 kubeai。

架构边界

选型判断

相关页面