inference-perf · llm-wiki

GenAI inference performance benchmarking tool，用于对 OpenAI-compatible/serving endpoint 做负载、延迟和吞吐测量。详见 src-inference-perf-architecture。

架构边界

和 llm-d-benchmark 相比，inference-perf 更像单个 benchmark harness；llm-d-benchmark 负责更完整的实验生命周期。

场景	判断
需要 `GenAI benchmark` 能力	适合，inference-perf 正是这一层的代表项目。
需要和 Kubernetes API / controller / runtime 集成	适合，它的主要价值来自 Kubernetes-native 工作流。
需要替代相邻层全部职责	不适合，应和 llm-d-benchmark, llm-inference, llm-d-inference-sim 组合。

把 inference-perf 放在 GenAI benchmark 维度评估：先看它输入什么对象、输出什么对象，再看它是否会进入请求路径、调度路径、节点路径或 CI/实验路径。这个边界比 star 数更能决定它是否适合当前平台。