用 HolmesGPT 自动诊断 Kubernetes 告警 · llm-wiki

摘要

STCLab 两人 SRE 团队用 HolmesGPT（CNCF Sandbox）+ ReAct 推理模式自动诊断 K8s 告警，核心发现：Runbook 比模型选择更重要。

关键数据

指标	改进前	改进后
日告警量	~40	~12（去重后）
单次排查时间	15-20 分钟	<2 分钟
无效工具调用	16 次/调查	2 次/调查
每次调查成本	—	~$0.04

架构要点

HolmesGPT ReAct 模式动态选择工具
Markdown runbook 带元数据（可用工具、范围限制）
Robusta 集成 + Slack 按 namespace 路由
未来：集成 Inspektor Gadget 的 ebpf 网络指标