AIops - HanFaye

AIops是什么#

AIOps，全称为“面向IT运维的人工智能”（Artificial Intelligence for IT Operations），是指将大数据分析、机器学习（ML）和人工智能（AI）技术应用于IT运维领域，以增强、简化并自动化IT流程。 [1][2] 随着IT环境（如微服务、混合云、容器等）日益复杂，产生的数据量急剧增长，传统的人工运维方式已难以应对。 [3][4] AIOps旨在通过智能化的手段，从海量、多源的运维数据中提取有价值的洞察，实现从被动响应到主动预测的转变。 [3][4]

AIops领域#

数据采集与可观测性
异常检测
事件关联与告警降噪
根本原因分析
预测性分析
自动化与修复

SRE文化#

依靠数据驱动
不是被动的问题修复者，而是主动的系统建设者
不仅仅是一个系统管理员、网络工程师，更需要具备后台开发的系统知识

MCP协议#

模型上下文协议

标准化接口：让不同的AI模型能够以一致的方法连接到各种数据源和工具 [2][6]。这减少了为每个新的AI模型或外部系统定制连接的需求
客户端-服务器架构： MCP采用客户端-服务器架构。AI代理或其辅助程序作为客户端，向MCP服务器发送请求，而MCP服务器则负责响应这些请求。MCP服务器可以通过API集成从其他数据源获取信息

一些问题#

方差和偏差区别
- 偏差（准确性、欠拟合）：偏差衡量的是模型预测的期望值与真实值之间的差异
- 方差（泛化性、过拟合）：模型对训练数据变化的敏感程度及预测结果的稳定性
集成学习机器学习范式，它通过构建并结合多个学习器（也称为基学习器或弱学习器）来完成学习任务，以获得比单一学习器更好的泛化性能。数据集选择为自主采样
- Bagging (Bootstrap Aggregating) Bagging 的核心思想是并行地训练多个独立的基学习器，并通过投票（分类任务）或平均（回归任务）的方式来整合它们的预测结果。比如随机森林，用于降方差
- Boosting (提升) 串行地训练一系列基学习器，每个新的基学习器都专注于纠正前一个学习器所犯的错误。它通过迭代地调整样本权重或拟合残差来逐步提高模型的性能。 用于降低偏差
防止过拟合的方法
- 增加训练数据
- 数据增强：旋转、平移、缩放、映入噪声等
- 特征选择与降维
- 简化模型复杂度，比如限制树的最大深度
- 正则化
  - L1：在损失函数中添加了模型所有参数的绝对值之和的惩罚项。倾向于使不重要特征的权重变为零，进行特征选择。
  - L2：在损失函数中添加了模型所有参数的平方和的惩罚项。L2正则化会促使模型的权重趋向于较小的值，但通常不会使它们变为零。它会均匀地收缩所有参数。
  - dropout：在神经网络训练过程中，随机地“关闭”（设置为零）一部分神经元及其连接。
聚类算法
- kmeans
- 层次聚类
  - 凝聚式
  - 分裂式
- DBSCAN：两个参数，eps和minpointsDBSCAN 是一种基于密度的聚类算法。它将紧密相连的数据点划分为簇，并将离群点标记为噪声。它能够发现任意形状的簇，且不需要预设簇的数量。

分类算法
- 回归
- 支持向量机
- 决策树
- 随机森林
- 贝叶斯
- KNN