一个月可达成目标与 MVP 实现路径
| 核心能力 | 成熟度 | 开源方案 | 商业方案 |
|---|---|---|---|
| 异常检测 | ⭐⭐⭐⭐⭐ | Netdata, Prometheus + ML | Dynatrace Davis, Datadog Bits AI |
| 告警关联/降噪 | ⭐⭐⭐⭐ | Alertmanager + 自定义 | PagerDuty, BigPanda |
| 根因分析 (RCA) | ⭐⭐⭐⭐ | HolmesGPT, LogAI | Splunk IT Service Intelligence |
| 预测性容量管理 | ⭐⭐⭐ | Prometheus + Prophet | Dynatrace, ScienceLogic |
| LLM 日志分析 | ⭐⭐⭐⭐ | LogSentinelAI, LogWhisperer | Datadog Bits AI, New Relic AI |
| 自动修复 | ⭐⭐⭐ | keephq/keep | ServiceNow ITOM |
从被动分析转向主动调查。Datadog Bits AI、Dynatrace Davis CoPilot 等已具备自主调查故障的能力。
将历史事件和运维手册注入 LLM 上下文,消除幻觉的同时将 RCA 准确率提升至可用水平。
OTel 成为遥测数据一体化的核心协议。trace_id 实现 metrics/logs/traces 的三元关联。
Prometheus + Grafana + Loki + OTel + Alertmanager 可组成零许可成本的 AIOps 全栈。
对接系统日志,通过 LLM 自动识别异常、根因分析、输出结构化报告。将日志排查从小时级降至分钟级。
对告警进行 ML 聚类、去重、关联,告警量减少 50-70%,保留关键信号。
对接 ChatOps,支持自然语言查询故障信息、获取 RCA 摘要和修复建议。
基于 Prometheus 指标,用无监督学习实现比固定阈值更智能的异常检测。
Day 1-2 环境搭建、日志接入 → Day 3-4 Python 管道:流式采集 + 结构化解析 + 时间窗口分桶 → Day 5 基础异常检测 (Z-Score + 移动平均)
✅ 里程碑:数据管道打通Day 6-7 LLM 分析模块 → Day 8-9 异常评分与严重级别定级 → Day 10-11 Service context 注入 → Day 12-13 历史校准
✅ 里程碑:LLM 自动输出结构化异常报告Day 14-16 Slack 集成 + RCA 推送 → Day 17-18 Grafana 面板 → Day 19-20 抑制窗口 + 分级路由
✅ 里程碑:全链路闭环Day 21-23 Docker/K8s 适配 → Day 24-25 性能优化 → Day 26-28 演示场景 + 最终报告
✅ 里程碑:MVP 交付| 工具 | 用途 | 学习成本 | LLM 集成 | 社区 | 建议 |
|---|---|---|---|---|---|
| Grafana Loki | 日志聚合 | 低-中 | 通过 API | ⭐⭐⭐⭐⭐ | 首选日志方案 |
| Prometheus | 指标采集 | 低 | 通过 API | ⭐⭐⭐⭐⭐ | 指标标准 |
| OpenTelemetry | 分布式追踪 | 中-高 | trace_id 关联 | ⭐⭐⭐⭐⭐ | Week 3+ 引入 |
| LogSentinelAI | LLM 日志分析 | 低 | 内置 | ⭐⭐⭐ | 参考架构 |
| HolmesGPT | AIOps 分析 | 中 | 内置 | ⭐⭐⭐⭐ | Week 3+ 集成 |
| keephq/keep | 告警管理 | 中 | API 扩展 | ⭐⭐⭐⭐ | 备选 |
| Netdata | 即时异常检测 | 极低 | 无 | ⭐⭐⭐⭐⭐ | 快速试用 |
确认课题方向
数据源 + LLM 预算
Python 项目骨架
日志采集确认
Z-Score 异常检测
日志结构化解析
LLM Prompt 模板
API 客户端实现
演示场景编排
🎯 方向确认会
产出:决策记录 → 可用数据管道 → 基础分析引擎 → 分析原型 → MVP 路线图
建议:初期 Claude API 最快出效果,后期可切 Ollama 本地节约成本
建议:有 Loki 优先 Loki,否则本地文件快速启动
建议:Slack 最简单,飞书需要额外开发
建议:Docker Compose 最快,K8s 后需
调用 LLM API 的累计费用不可控
LLM"编造"不存在的异常
大量日志导致分析延迟,无法实时
目标系统无可用日志接口