980 words
5 minutes
AIops
2025-09-13

AIops是什么#

AIOps,全称为“面向IT运维的人工智能”(Artificial Intelligence for IT Operations),是指将大数据分析、机器学习(ML)和人工智能(AI)技术应用于IT运维领域,以增强、简化并自动化IT流程。 [1][2] 随着IT环境(如微服务、混合云、容器等)日益复杂,产生的数据量急剧增长,传统的人工运维方式已难以应对。 [3][4] AIOps旨在通过智能化的手段,从海量、多源的运维数据中提取有价值的洞察,实现从被动响应到主动预测的转变。 [3][4]

AIops领域#

  • 数据采集与可观测性
  • 异常检测
  • 事件关联与告警降噪
  • 根本原因分析
  • 预测性分析
  • 自动化与修复

SRE文化#

  • 依靠数据驱动
  • 不是被动的问题修复者,而是主动的系统建设者
  • 不仅仅是一个系统管理员、网络工程师,更需要具备后台开发的系统知识

MCP协议#

模型上下文协议

  • 标准化接口: 让不同的AI模型能够以一致的方法连接到各种数据源和工具 [2][6]。这减少了为每个新的AI模型或外部系统定制连接的需求
  • 客户端-服务器架构: MCP采用客户端-服务器架构。AI代理或其辅助程序作为客户端,向MCP服务器发送请求,而MCP服务器则负责响应这些请求。MCP服务器可以通过API集成从其他数据源获取信息

一些问题#

  • 方差和偏差区别

    • 偏差(准确性、欠拟合):偏差衡量的是模型预测的期望值与真实值之间的差异
    • 方差(泛化性、过拟合):模型对训练数据变化的敏感程度及预测结果的稳定性
  • 集成学习 机器学习范式,它通过构建并结合多个学习器(也称为基学习器或弱学习器)来完成学习任务,以获得比单一学习器更好的泛化性能。数据集选择为自主采样

    • Bagging (Bootstrap Aggregating) Bagging 的核心思想是并行地训练多个独立的基学习器,并通过投票(分类任务)或平均(回归任务)的方式来整合它们的预测结果。 比如随机森林,用于降方差
    • Boosting (提升) 串行地训练一系列基学习器,每个新的基学习器都专注于纠正前一个学习器所犯的错误。它通过迭代地调整样本权重或拟合残差来逐步提高模型的性能。 用于降低偏差
  • 防止过拟合的方法

    • 增加训练数据
    • 数据增强:旋转、平移、缩放、映入噪声等
    • 特征选择与降维
    • 简化模型复杂度,比如限制树的最大深度
    • 正则化
      • L1:在损失函数中添加了模型所有参数的绝对值之和的惩罚项。倾向于使不重要特征的权重变为零,进行特征选择。
      • L2:在损失函数中添加了模型所有参数的平方和的惩罚项。L2正则化会促使模型的权重趋向于较小的值,但通常不会使它们变为零。它会均匀地收缩所有参数。
      • dropout:在神经网络训练过程中,随机地“关闭”(设置为零)一部分神经元及其连接。
  • 聚类算法

    • kmeans
    • 层次聚类
      • 凝聚式
      • 分裂式
    • DBSCAN: 两个参数,epsminpointsDBSCAN 是一种基于密度的聚类算法。它将紧密相连的数据点划分为簇,并将离群点标记为噪声。它能够发现任意形状的簇,且不需要预设簇的数量。
  • 分类算法
    • 回归
    • 支持向量机
    • 决策树
    • 随机森林
    • 贝叶斯
    • KNN