早、准、易、全、快,基于运维指标体系的智能事件管理

9月18-19日,“科技引领发展 创新赢得未来——2023第二届国际互联网产业科技创新大会”在国家会议中心召开,必示科技产品部总监聂晓辉代表优秀高新科技企业在会上进行了关于《基于运维指标体系的智能事件管理》的主题演讲。

早、准、易、全、快,基于运维指标体系的智能事件管理_第1张图片
必示科技产品部总监聂晓辉

IT环境基础资源异构、应用架构多样、变更频繁,各种软硬件故障不可避免。传统人工配置阈值的监控方式存在误报、漏报、告警滞后、配置维护繁琐等问题,导致关键指标故障难以识别,缺乏与运维业务需求结合的业务洞察。必示科技智能事件管理平台产品,在构建运维指标体系的基础上,结合多种AIOps智能检测和分析算法,实现快速、准确的故障检测和辅助分析,从而提高故障识别和解决效率。

IT系统数量众多,系统关联关系复杂,多系统交叉、网络交错,运维十分具有挑战。为了保证系统安全稳定运行,多方人员会监控和分析系统运维对象、指标等数据,快速发现、定位、解决故障,以事件管理的方式从故障发现、告警管理、故障排查、故障恢复、故障复盘来解决面临的运维问题。

传统事件管理存在的局限性

业务创新、技术演进造成软硬件故障难以避免;

被动式的运维方式:被动处理故障、被动解决问题、被动提供应用交付、被动节省成本;

数据价值未被充分释放:缺乏有效的数据分析,无法识别关键指标,缺乏和运维业务需求和目标相结合的业务洞察,数据质量问题无法有效发现和解决;

传统监控告警准确性低、误报多;

故障隐患发现手段缺失,部分故障,如内存泄漏、网络流量下降、资源竞争等,可能不会立即导致明显的问题,而是在时间上积累,因为未能正确捕捉特定的事件或条件,难以被当前监控手段发现,导致漏报;

故障分析处置能力分散,应急效率低:庞杂的工具各行其道,多方协作排障、信息收集慢,此外主要靠专家做故障分析决策,故障分析慢。

必示科技智能事件管理平台的核心能力

必示科技智能事件管理平台:基于运维指标体系能够实现“早、准、易、全、快”的智能事件管理。

早、准、易、全、快,基于运维指标体系的智能事件管理_第2张图片

多种监控策略:提供动态基线检测、指标模式检测、智能同环比检测、离群检测、趋势检测等多种监控策略,使用户可以灵活地选择适合其业务场景的监控方式;

自动化监控配置:产品提供指标体系、指标画像、监控策略自动推荐和自动调优功能,帮助用户更便捷地进行监控配置,提高效率和准确性;

智能告警降噪:通过告警关键字、AI日志模式聚合、拓扑聚合等聚合方法,极大减少告警噪声,使用户能够更快速地发现真正重要的问题,加速故障处理过程;

故障辅助分析:产品提供多种辅助分析功能,包括告警摘要分析、拓扑关联分析、机器指标定位、业务多维定位,帮助用户更快速地定位和解决问题;

信创支持:产品兼容常见的国产化操作系统、中间件、数据库、云平台、处理器等信创组件。

你可能感兴趣的:(运维)