llm-wiki wiki · sources 2026-06-12

kubernetes-sigs/gateway-api-inference-extension 是 Kubernetes SIG 路线的推理流量标准化入口。它定义 InferencePool 等 API,提供 EPP/LWEPP、client-go、conformance、benchmarking 和 Gateway API 集成,是 llm-d-router 等项目对齐的标准层。

核心架构图

┌──────────────────────────── user / API surface ──────────────────────────────┐
│ `kubernetes-sigs/gateway-api-inference-extension` 是 Kubernetes SIG 路线的推理… │
└───────────────────────────────┬───────────────────────────────────────────────┘
                                │
┌───────────────────────────────▼───────────────────────────────────────────────┐
│ core implementation: `api/v1`, `apix/**` · `cmd/epp`, `cmd/lwepp`, `pkg/epp`, `pkg/lwepp`                                    │
└───────────────┬───────────────────────────────┬───────────────────────────────┘
                │                               │
┌───────────────▼──────────────┐  ┌─────────────▼──────────────────────────────┐
│ `client-go/**`                     │  │ `conformance/**`, `benchmarking/**`   │
└───────────────┬──────────────┘  └─────────────┬──────────────────────────────┘
                │                               │
┌───────────────▼───────────────────────────────▼──────────────────────────────┐
│ selected value: routing / serving / dashboard / graph layer for current wiki  │
└───────────────────────────────────────────────────────────────────────────────┘

模块分层

层/目录 责任
api/v1, apix/** InferencePool 和 EndpointPicker 相关 API。
cmd/epp, cmd/lwepp, pkg/epp, pkg/lwepp Endpoint Picker 实现。
client-go/** 生成客户端。
conformance/**, benchmarking/** 一致性与性能验证。

关键数据流

  1. HTTPRoute/Gateway 指向 InferencePool。
  2. EPP/LWEPP 根据 endpoint 状态、端口和模型能力选择后端。
  3. conformance/benchmark 确保实现符合 Gateway API 推理扩展语义。

设计决策

对比定位

和 llm-d-router 相比,它是标准/API 和参考层;和 Envoy AI Gateway 相比,它更偏 endpoint picking,不管 provider auth/cost/prompt mutation。

相关链接