llm-wiki wiki · sources 2026-06-04

原文:raw/k8s-gpu-device-plugins-stars-list.md · 来源:googs1025 的 K8s GPU & Device Plugins Stars list · 抓取日期:2026-06-04 · 仓库数:36

一句话定位

这个 Star list 聚焦 kubernetes 异构设备资源层:从最传统的 device plugin、GPU Operator、container toolkit、DCGM/NVML 监控,到 vGPU / GPU sharing、Dynamic Resource Allocation、CDI、fake GPU 测试环境,再延伸到 CUDA 学习、TensorRT、KV cache 虚拟化这类 GPU workload 能力。

分层地图

┌──────────────────────────────────────────────────────────────────────────────┐
│ AI / CUDA workload layer                                                     │
│ TensorRT · LeetCUDA · CUDA_Freshman · kvcached · MUSA adapters               │
└───────────────────────────────┬──────────────────────────────────────────────┘
                                │
┌───────────────────────────────▼──────────────────────────────────────────────┐
│ Runtime / container integration                                              │
│ NVIDIA container toolkit · CDI · NVML bindings · operator libs               │
└───────────────────────────────┬──────────────────────────────────────────────┘
                                │
┌───────────────────────────────▼──────────────────────────────────────────────┐
│ Kubernetes device exposure                                                   │
│ NVIDIA k8s-device-plugin · Intel device plugins · host device plugin         │
│ GPU Feature Discovery · GPU Operator · AIStore on K8s                        │
└───────────────────────────────┬──────────────────────────────────────────────┘
                                │
┌───────────────────────────────▼──────────────────────────────────────────────┐
│ Sharing / virtualization / DRA                                               │
│ HAMi · vgpu-scheduler · gpushare · Volcano vGPU · NVIDIA DRA · CPU/CNI DRA   │
└───────────────────────────────┬──────────────────────────────────────────────┘
                                │
┌───────────────────────────────▼──────────────────────────────────────────────┐
│ Observability / diagnostics / test doubles                                   │
│ DCGM exporter · gpu-monitoring-tools · GPUd · fake-gpu · fake-gpu-operator   │
└──────────────────────────────────────────────────────────────────────────────┘

观察

优先深挖候选

优先级 项目 原因
1 NVIDIA/k8s-device-plugin Kubernetes GPU device plugin 标准参照。
2 NVIDIA/gpu-operator 生产 GPU 集群运维主入口。
3 Project-HAMi/HAMi 当前 GPU sharing / vGPU 方向最值得系统分析的项目。
4 kubernetes-sigs/dra-driver-nvidia-gpu Kubernetes DRA + GPU 的下一代资源 API 样板。
5 cncf-tags/container-device-interface CDI 是 container runtime 侧设备声明标准,和 DRA/device plugin 相邻。
6 NVIDIA/dcgm-exporter GPU metrics 和 Prometheus 集成标配。
7 leptonai/gpud GPU 诊断从 metrics 走向自动化 health/issue detection。
8 ovg-project/kvcached KV cache 资源化和 GPU sharing/LLM serving 的交叉点。