llm-wiki wiki · sources 2026-04-21

摘要

STCLab 两人 SRE 团队用 HolmesGPT(CNCF Sandbox)+ ReAct 推理模式自动诊断 K8s 告警,核心发现:Runbook 比模型选择更重要

关键数据

指标 改进前 改进后
日告警量 ~40 ~12(去重后)
单次排查时间 15-20 分钟 <2 分钟
无效工具调用 16 次/调查 2 次/调查
每次调查成本 ~$0.04

架构要点