llm-wiki wiki · entities 2026-06-12

NVIDIA GPU 软件栈的 Kubernetes Operator,用 ClusterPolicy/NVIDIADriver CRD 管理 driver、container-toolkit、device-plugin、DCGM、MIG manager、sandbox/vGPU 等组件生命周期。详见 src-gpu-operator-architecture

架构边界

GPU Operator 管“节点软件栈怎么安装、升级、保持健康”,不是单次 Pod GPU allocation 算法。它通常部署或管理 k8s-device-plugin,并与 hamidra-driver-nvidia-gpu 处在不同层。

选型判断