这页把 llm-d 组织和 kubernetes-sigs 组织里值得继续加入 wiki 的项目,按工程维度拆成候选清单。它不是 star 排行榜,而是服务于当前知识库的补全路线:哪些项目能帮助理解 llm-inference、model-serving-operator、kubernetes-dra、inference-routing、cloud-native-security 和 Kubernetes 控制器生态。
本次核验基于 GitHub API 当前公开仓库元数据(2026-06-13)。当前已收录的同域项目包括 llm-d、llm-d-batch-gateway、llm-d-benchmark、llm-d-workload-variant-autoscaler、llm-d-inference-sim、gateway-api、gateway-api-inference-extension、agent-sandbox、dra-driver-nvidia-gpu。
总体优先级
P0: 直接补当前 AI Infra / LLM serving / K8s control plane 选型缺口
P1: 强相关,但更偏评测、诊断、迁移、配套或特定场景
P2: 后续补充,先进入 backlog,不急于做完整源码架构页
| 优先级 |
项目 |
维度 |
加入价值 |
| P0 已完成 |
llm-d-batch-gateway |
LLM batch serving |
已补正式源码架构页,把 llm-d 从在线 inference 扩展到 OpenAI Batch API / 离线 batch workload。 |
| P0 已完成 |
llm-d-benchmark |
LLM serving benchmark |
已补正式源码架构页,作为 llm-inference-serving-project-map 的性能评测入口。 |
| P0 已完成 |
llm-d-workload-variant-autoscaler |
serving autoscaling |
已补正式源码架构页,补齐 variant / workload autoscaling 和资源经济链路。 |
| P0 已完成 |
llm-d-inference-sim |
inference simulator |
已补正式源码架构页,无 GPU 模拟 vLLM 行为,适合研究调度、benchmark 和路由策略。 |
| P0 已完成 |
kueue |
调度 / 队列 |
K8s 原生 Job queueing,是 AI/HPC/batch workload 控制面的核心项目。 |
| P0 已完成 |
karpenter |
节点弹性 / 成本 |
Node autoscaler,连接 serving SLO、GPU 成本和容量弹性。 |
| P0 已完成 |
controller-runtime |
Operator SDK |
现代 K8s controller 的通用抽象层,当前大量实体页都依赖它。 |
| P0 已完成 |
kubebuilder |
CRD / controller 脚手架 |
和 controller-runtime 一起构成 Operator 工程主线。 |
| P0 已完成 |
metrics-server |
可观测 / autoscaling |
HPA/VPA 基础指标源,解释 autoscaling 体系必需。 |
| P0 已完成 |
external-dns |
网络 / DNS |
K8s service/ingress/gateway 到 DNS record 的控制器代表。 |
| P0 已完成 |
secrets-store-csi-driver |
存储 / 凭据 |
CSI 方式注入外部 secret,连接凭据治理和 runtime security。 |
| P0 已完成 |
kind |
计算 / 测试集群 |
本地 K8s 测试底座,很多 controller/operator 项目的开发环境基线。 |
| 排除 |
aws-load-balancer-controller / aws-ebs-csi-driver / aws-efs-csi-driver |
AWS 专项 |
用户明确本轮不需要。 |
llm-d 组织候选
| 项目 |
优先级 |
当前定位 |
应放入的 wiki 主题 |
| llm-d-batch-gateway |
P0 已完成 |
OpenAI-compatible /v1/batches 和 /v1/files,把 batch job 分成 API server、processor、queue、storage、GC 等组件。 |
llm-inference-serving-project-map、batch-inference、model-serving-operator |
| llm-d-benchmark |
P0 已完成 |
llm-d benchmark lifecycle/workspace/harness 编排。 |
LLM serving benchmark、llm-inference |
| llm-d-workload-variant-autoscaler |
P0 已完成 |
distributed inference workload variant autoscaler。 |
autoscaling、K8s resource economics、model-serving-operator |
| llm-d-inference-sim |
P0 已完成 |
轻量模拟 vLLM 行为,不需要 GPU 或真实大模型。 |
simulator、scheduler、benchmark |
| llm-d-latency-predictor |
P1 已完成 |
给 inference scheduler 的 ML-based latency scoring service。 |
latency predictor、inference-routing |
| llm-d-prism |
P1 已完成 |
分布式推理性能分析 dashboard,把 benchmark 数据做交互式分析。 |
observability、performance analysis |
| llm-d-pd-utils |
P1 已完成 |
Agentic Skills + scripts,用于 P/D 部署 preflight、GPU topology、RDMA/NCCL/network tests。 |
P/D diagnostics、GPU/network validation |
llm-d-batch-gateway 组件拆分 |
P2 |
API server / batch processor / GC / storage backend 可后续拆成细页。 |
batch serving internals |
llm-d-inference-payload-processor |
P2 |
inference payload processor,目前公开说明较薄。 |
router/batch 辅助组件 |
llm-d-infra / templates / .github |
暂缓 |
组织 CI、模板和治理基础设施。 |
不建议单独建架构页 |
archived deployer / model-service / routing-sidecar |
暂缓 |
旧组件或已归档项目。 |
仅在追溯历史设计时引用 |
llm-d 的知识结构缺口
当前 wiki 已经覆盖 llm-d 总入口、Router/EPP、KV cache 和 P0 四类外围能力:
Kubernetes SIGs 候选:按工程维度
网络
存储 / Secret / 数据面挂载
调度 / 资源 / 队列
可观测 / 性能 / 诊断
| 项目 |
优先级 |
为什么值得加入 |
| metrics-server |
P0 已完成 |
HPA/VPA 的基础资源指标源,K8s autoscaling 入口。 |
| prometheus-adapter |
P0 已完成 |
把 Prometheus 指标暴露为 custom/external metrics API,连接高级 autoscaling。 |
| inference-perf |
P1 已完成 |
GenAI inference performance benchmarking tool,可与 llm-d-benchmark 对比。 |
| headlamp |
P1 已完成 |
K8s UI / debugging / monitoring,可和 kubewall、k8m 对比。 |
usage-metrics-collector |
P2 |
容量和使用率指标收集,适合补平台容量管理。 |
resource-state-metrics / logtools / instrumentation-tools |
P2 |
作为 SIG Instrumentation 工具链补充。 |
计算 / Runtime / 节点
| 项目 |
优先级 |
为什么值得加入 |
| kind |
P0 已完成 |
本地 Kubernetes in Docker,是 controller/operator 开发和 CI 的事实基线。 |
| kubespray |
P0 已完成 |
生产集群部署自动化,适合理解集群生命周期和裸金属/on-prem。 |
| cri-tools |
P0 已完成 |
CRI CLI + validation,理解 kubelet/runtime 边界。 |
| security-profiles-operator |
P1 已完成 |
seccomp/AppArmor/SELinux profile operator,连接 runtime security。 |
| agent-sandbox |
已有 |
已收录,AI Agent runtime 的 sandbox CRD。 |
| lws |
P1 已完成 |
LeaderWorkerSet,用一组 Pod 表达 leader/worker 分布式 workload。 |
| jobset |
P1 已完成 |
分布式 ML/HPC workload API,和 Kueue、batch serving 强相关。 |
API / Operator / 控制器开发
| 项目 |
优先级 |
为什么值得加入 |
| controller-runtime |
P0 已完成 |
Manager、cache、client、reconcile、webhook、envtest 的现代 controller 抽象层。 |
| kubebuilder |
P0 已完成 |
CRD/controller 项目脚手架和代码生成路径。 |
| controller-tools |
P0 已完成 |
CRD、RBAC、webhook、object deepcopy 等生成工具链。 |
| cluster-api |
P0 已完成 |
声明式集群生命周期管理,适合接多集群和平台工程。 |
| kustomize |
P1 已完成 |
Kubernetes YAML 定制工具链,GitOps/配置管理基础。 |
| kro |
P1 已完成 |
Kube Resource Orchestrator,适合与 Crossplane Composition / higher-level API 对比。 |
apiserver-builder-alpha |
P2 |
aggregated apiserver/controller 旧路线,可作为历史参考。 |
AI Infra / Agent 交叉
推荐实施顺序
第一批:直接补 AI Infra 选型缺口
- llm-d-batch-gateway(已完成)
- llm-d-benchmark(已完成)
- llm-d-workload-variant-autoscaler(已完成)
- llm-d-inference-sim(已完成)
- kueue(已完成)
- karpenter(已完成)
- metrics-server(已完成)
- prometheus-adapter(已完成)
- inference-perf(已完成)
- lws(已完成)
- jobset(已完成)
这批可以让 llm-inference-serving-project-map 从“引擎/serving stack”扩展到 batch、benchmark、queueing、autoscaling、distributed workload API。
第二批:补 Kubernetes 控制器和平台工程底座
- controller-runtime(已完成)
- kubebuilder(已完成)
- controller-tools(已完成)
- cluster-api(已完成)
- kind(已完成)
- cri-tools(已完成)
- external-dns(已完成)
- secrets-store-csi-driver(已完成)
- scheduler-plugins(已完成)
- node-feature-discovery(已完成)
这批可以让 k8s-core-controller-map 从学习路径升级成更完整的平台工程架构图。
第三批:按专项补齐
和现有页面的关系