华体会体育(中国)hth·官方网站通过自动化运维实现无人值守的故障自愈故障自愈指实时发现告警,预诊断分析,自动恢复故障,并打通周边系统实现故障的快速恢复。通过故障自愈提升企业网络系统可用性、降低排障处置人力投入,实现从“人工处置”到“无人值守”的转变。
针对运维中对故障自愈能力的需求,北京智和信通在实时监控告警的基础上,搭载可视化运维配置模块,通过赋予用户自定义编辑故障自愈策略的能力,实现无需针对告警进行手动处置,只需预编排告警处理流程,平台根据场景自动触发,从而做到故障自愈。
对各类设备进行批量、定时、条件触发等操作,通过自动化执行实现在网络、设备出现故障时的自动排障和自愈,释放运维人力。下面以磁盘爆满自动清理为例,介绍如何通过智和网管平台实现故障自愈。
第一步:将需要管理的服务器纳入平台进行监控,并将监视器设置为磁盘使用率超过90%进行严重告警。
第二步:进入安管模块的运维编排菜单,创建磁盘爆满自动清理策略。根据真实排障过程,通过进行策略节点拖拽编排的方式规划自愈流程。
第三步:配置触发方式华体会体育(中国)hth·官方网站。方式支持通过告警触发和通过时间触发两种方式进行,为实现故障自愈的效果,我们选择通过匹配告警的方式触发策略。
编排流程配置完成后,设备出现对应的严重级别告警后,立即触发磁盘清理策略,自动执行编排内的操作,对故障进行校验和处置。并在执行过程中,对每一步处置操作进行记录形成日志,确保有迹可循。
在故障自愈方案中,核心是精确定位告警并匹配到适宜用户应用场景的故障自愈策略。一个符合用户需求的自愈策略,将为用户节约80%的故障处理时间。
因此,北京智和信通提供从实时监控异常状态到告警收敛降噪、定位故障根因的高精确告警方案,并通过可视化编排工具,支持以拖拽的方式快速简单地完成作业流程的配置,将复杂的运维工作和任务转变为一致的,可复用的、可度量和有效的工作流,实现自动化运维。
故障自愈方案的整体流程从获取精准告警开始,到预诊断分析,判断告警类型和级别,一般告警触发自愈策略,平台进行自动恢复,严重复杂告警则通过告警通知、运维工单等形式通知运维管理人员,进行人工处理,从而实现故障的快速治愈。
智和信通故障自愈方案一体化集中监控各类IT资源,全量汇聚性能、事件、日志、流量等异常告警信息。充分利用积累的有效定障、排障经验,打通综合监控、IP合规性监测、流量透视、自动运维、运维工单等关联数据,实现从告警检测到排障恢复的全生命周期闭环管理。
实时监控、感知全网性能状态,通过主动沦陷与日志解析的方式,动态呈现网络态势,覆盖网络中各类软硬件设备,洞察设备、资源、链路性能。采用多种告警机制,自定义配置告警阈值,从众多的状态信息和日志数据中,将零散的信息总结成当前态势并进行实时分析,对异常情况进行告警。
接收Trap、Syslog、Filter Alarm等事件信息和设备日志数据,集中存储、解析、提取有效信息,将事件与日志存储为可统计分析的结构化数据,呈现日志数据价值。根据对事件、日志数据的挖掘与分析,通过配置告警规则和场景,将异常日志自动转化为告警华体会体育(中国)hth·官方网站,定位其影响范围。
采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告警降噪机制,通过AI算法,对各类告警进行自动压缩收敛,减少90%的无效告警,抑制告警风暴,直达故障根因。包括事件过滤机制、故障事件上报机制、故障事件呈现过滤华体会体育(中国)hth·官方网站、故障事件入库过滤、故障事件确认等处理机制,有效避免误报和漏报。
一步定位到发生故障的源头设备,基于混合算法,快速检索异常问题关联涉及的各项维度与影响范围,快速定位问题边界。及时进行排障处置,支持以拓扑图的方式回放历史告警下的设备告警变化、拓扑图和链路告警变化,支持快进、后退等播放操作,有效地预防更加严重的故障发生。
方案具备拖拽式场景编排能力,可以灵活地定制运维场景,自动执行编排流程。整体运维操作过程和执行结果均以可视化的方式进行呈现。不限制作业流程及流程内节点配置数量,全面满足不同运维需求,同时支持高性能的多条编排流程并发执行,加快排障处置效率。
平台内置多种原子运维命令,满足用户日常基本运维需求,同时支持用户配置专属策略,通过对原子策略的组合复用,实现针对不同运维场景的策略模板,满足不同设备在不同运维场景下的特有需求。
通过可视化编排以拖拽的方式快速简单地完成作业流程的配置,将复杂的运维工作和任务转变为一致的,可复用的、可度量和有效的工作流,实现自动化运维。
智和信通故障自愈方案通过“监控+运维+控制”相结合的方式,将日常所需的各类故障排查、处置工作以策略模板的形式提供给用户,确保每个操作安全高效,全面提升告警排障效率。