llm-wiki wiki · concepts 2026-06-12

GPU sharing 指多个 workload 共享同一物理 GPU 或 MIG/MPS/time-slicing/vGPU 资源的调度与隔离方法。目标是在吞吐、隔离、成本和利用率之间取平衡。

主要路线

路线 代表 特点
MIG k8s-device-plugin 硬件切分,隔离强,但粒度受硬件 profile 限制
Time-slicing / MPS k8s-device-plugin 共享简单,但隔离和 QoS 取舍明显
vGPU / memory/core sharing hami 调度器参与,支持更细粒度资源表达
DRA dynamic device config dra-driver-nvidia-gpu 面向未来的声明式资源配置

和 GPU Operator 的关系

gpu-operator 管软件栈生命周期;GPU sharing 管 workload 如何共享设备。两者层级不同,但生产环境经常同时出现。