AIOps 深度研究报告

一个月可达成目标与 MVP 实现路径

📅 2026年6月15日 · 基于 30+ 来源的深度研究 · 10 份开源项目参考

1. AIOps 全景图 (2025-2026)

核心能力成熟度开源方案商业方案
异常检测⭐⭐⭐⭐⭐Netdata, Prometheus + MLDynatrace Davis, Datadog Bits AI
告警关联/降噪⭐⭐⭐⭐Alertmanager + 自定义PagerDuty, BigPanda
根因分析 (RCA)⭐⭐⭐⭐HolmesGPT, LogAISplunk IT Service Intelligence
预测性容量管理⭐⭐⭐Prometheus + ProphetDynatrace, ScienceLogic
LLM 日志分析⭐⭐⭐⭐LogSentinelAI, LogWhispererDatadog Bits AI, New Relic AI
自动修复⭐⭐⭐keephq/keepServiceNow ITOM

2026 年关键趋势

Agentic AI

从被动分析转向主动调查。Datadog Bits AI、Dynatrace Davis CoPilot 等已具备自主调查故障的能力。

LLM + RAG

将历史事件和运维手册注入 LLM 上下文,消除幻觉的同时将 RCA 准确率提升至可用水平。

OpenTelemetry

OTel 成为遥测数据一体化的核心协议。trace_id 实现 metrics/logs/traces 的三元关联。

开源栈成熟

Prometheus + Grafana + Loki + OTel + Alertmanager 可组成零许可成本的 AIOps 全栈。

2. 一个月可达成目标

推荐 MVP

🥇 方案 A:LLM 智能日志分析

对接系统日志,通过 LLM 自动识别异常、根因分析、输出结构化报告。将日志排查从小时级降至分钟级。

🎯 MTTR 降低 30%+ · 3-4 周
次选

🥈 方案 B:告警降噪与关联

对告警进行 ML 聚类、去重、关联,告警量减少 50-70%,保留关键信号。

🎯 告警量减 50-70% · 2-3 周
辅助

🥉 方案 C:AI 故障复盘助手

对接 ChatOps,支持自然语言查询故障信息、获取 RCA 摘要和修复建议。

🎯 查询即答案 · 2-3 周
快速启动

🏅 方案 D:指标异常检测

基于 Prometheus 指标,用无监督学习实现比固定阈值更智能的异常检测。

🎯 提前 15-60 分发现 · 1-2 周

3. MVP 方案:LLM 智能日志分析系统

┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ 数据采集层 │───▶│ 分析处理层 │───▶│ 展示通知层 │
│ │ │ │ │ │
• 文件日志 • 结构化解析 • Grafana
• Loki API • 分桶(行/批) • Slack 通知
• Docker logs • LLM 分析 • 报告输出
└──────────────┘ • 异常评分 └──────────────┘
                  • RCA 生成
                 └──────────────┘

逐周路线图

Week 1:数据管道搭建

Day 1-2 环境搭建、日志接入 → Day 3-4 Python 管道:流式采集 + 结构化解析 + 时间窗口分桶 → Day 5 基础异常检测 (Z-Score + 移动平均)

✅ 里程碑:数据管道打通

Week 2:LLM 分析集成

Day 6-7 LLM 分析模块 → Day 8-9 异常评分与严重级别定级 → Day 10-11 Service context 注入 → Day 12-13 历史校准

✅ 里程碑:LLM 自动输出结构化异常报告

Week 3:通知与展示

Day 14-16 Slack 集成 + RCA 推送 → Day 17-18 Grafana 面板 → Day 19-20 抑制窗口 + 分级路由

✅ 里程碑:全链路闭环

Week 4:优化与演示

Day 21-23 Docker/K8s 适配 → Day 24-25 性能优化 → Day 26-28 演示场景 + 最终报告

✅ 里程碑:MVP 交付

4. 工具选型对比

工具用途学习成本LLM 集成社区建议
Grafana Loki日志聚合低-中通过 API⭐⭐⭐⭐⭐首选日志方案
Prometheus指标采集通过 API⭐⭐⭐⭐⭐指标标准
OpenTelemetry分布式追踪中-高trace_id 关联⭐⭐⭐⭐⭐Week 3+ 引入
LogSentinelAILLM 日志分析内置⭐⭐⭐参考架构
HolmesGPTAIOps 分析内置⭐⭐⭐⭐Week 3+ 集成
keephq/keep告警管理API 扩展⭐⭐⭐⭐备选
Netdata即时异常检测极低⭐⭐⭐⭐⭐快速试用

5. 本周行动计划

Day 1

确认课题方向
数据源 + LLM 预算

Day 2

Python 项目骨架
日志采集确认

Day 3

Z-Score 异常检测
日志结构化解析

Day 4

LLM Prompt 模板
API 客户端实现

Day 5

演示场景编排
🎯 方向确认会

产出:决策记录 → 可用数据管道 → 基础分析引擎 → 分析原型 → MVP 路线图

6. 决策点与风险

关键决策

LLM 选型

建议:初期 Claude API 最快出效果,后期可切 Ollama 本地节约成本

日志来源

建议:有 Loki 优先 Loki,否则本地文件快速启动

通知方式

建议:Slack 最简单,飞书需要额外开发

部署方式

建议:Docker Compose 最快,K8s 后需

主要风险与缓解

LLM Token 成本超支

调用 LLM API 的累计费用不可控

✅ 设置每日限额 · 本地 LLM 降级方案
LLM 幻觉导致误报

LLM"编造"不存在的异常

✅ Service context 注入 · 抑制窗口 · 人工确认
日志量大处理延迟

大量日志导致分析延迟,无法实时

✅ 50-200 行/批 · 异步处理 · Drain 去重
数据源不可用

目标系统无可用日志接口

✅ Day 1 确认源 · 准备合成数据 fallback

参考来源