llm-d Inference Sim

llm-d Inference Sim 是 llm-d 生态的轻量 vLLM 行为模拟器，用 OpenAI-compatible HTTP、vLLM-like gRPC/API、KV cache events、LoRA lifecycle、延迟模型和 metrics 模拟推理服务。详见 src-llm-d-inference-sim-architecture。

架构边界

它不做真实模型推理，也不代表真实 GPU 性能。它的定位是控制面和系统策略验证：让 inference-routing、llm-d-benchmark、autoscaling、P/D、KV-aware routing 和 failure injection 可以在无 GPU 或低成本环境中先跑通。

什么时候用

场景	判断
验证 router / Gateway / benchmark 流程	适合，协议和 metrics 尽量贴近 vLLM。
测试 KV-aware routing / prefix cache 信号	适合，能生成 block key、PrefixCacheStats 和事件。
需要生产性能数据	不适合，必须用真实 vllm / sglang / GPU。
做 CI 或 Kind 环境 smoke test	适合，比真实模型更便宜稳定。

维度	llm-d-inference-sim	vllm	mock HTTP server
推理行为	行为模拟	真实推理	少量 API stub
KV/cache 语义	模拟 block/cache/events	真实 KV cache	通常没有
适合问题	控制面、路由、autoscaling、benchmark 流程	性能和生产执行	客户端单元测试

选型提示

把它当成“系统测试替身”，不要当成性能基线。要理解 llm-d 的控制面闭环，它和 llm-d-benchmark 放在一起看最有价值。

架构边界

什么时候用

同类对比

选型提示

相关页面