华体会体育银行业AIOps应用现状之大模型与自动化运维运维工程师应该深有体会——运维越来越难做,被海量高速的运维监控数据所淹没。AIOps的引入有其重要性和必要性。本文对银行业AIOps应用的真实现状进行了研究和分析,对于正在考虑或已经进行相关建设的同行具有参考价值。
【作者】许中华,10年+的商业银行领域运维工作,负责牵头或者参与运维组织、流程、制度、工具、体系建设,包括标准化工作流程构建,平台工具体系的规划与建设、数字化转型研究与实施相关等,对商业银行的运维有较全面理解。
随着业务创新以及分布式架构、微服务、大数据、人工智能等技术演进,使得银行业IT运维面临软硬件数量激增、应用和架构复杂化、变更频繁、调用链显著增长、运维数据井喷等困难和挑战。
运维技术在各行各业的重要性越来越高,特别在商业银行使用更广、更深,由于商业银行数字化程度越来越高、系统规模越来越大、组件监控粒度越来越细、监控数据量越来越大以及新技术和新组件的不断引入,这些导致运维越来越难做,运维工程师也被海量高速的运维监控数据所淹没。
AIOps是基于海量数据的采集与治理(数据化)、AI算法的深度应用(智能化)和端到端的自动化打造平台化的智能运维目标,实现全景监控与自动化、智能分析与决策、故障自愈与无人值守。AIOps的优势是有利于知识和经验的积累。在智能运维体系中华体会体育(中国)hth·官方网站,运维人员在角色转变的同时也实现了技能提升,从最初的人工运维,到部分自动化+数据分析,实现数据驱动的IT运维,最终走向高度数据化华体会体育(中国)hth·官方网站、高度AI下的完全自动化+运维专家模式。
随着新质生产力的发展、数字化转型的持续推进,现代数字业务需要监控和管理的系统变得更加复杂、更加分散,需要AIOps工具来实现跨IT堆栈的持续洞察,同时这种洞察力变得越来越重要。随着商业银行数字化转型的加速,IT系统产生的运维数据量呈现爆炸式增长,传统的运维方式难以应对海量数据的处理和分析,需要AIOps利用人工智能技术对数据进行自动化分析和处理,提高运维效率;现代IT环境由云化、容器化、微服务等多种技术构成,系统复杂性大幅增加,AIOps通过智能算法和机器学习技术,能够更好地识别和管理这种复杂性;AIOps可以自动关联和分析来自不同来源的事件,快速定位故障原因,同时,通过对历史数据的学习,AIOps能够预测系统潜在的问题,实现主动预防;AIOps可以实现故障的自动化响应和处理,减少人工介入,缩短故障恢复时间(MTTR),提高系统的稳定性和可用性。总之,AIOps的引入对于应对当前IT运维挑战、提高运维质量和效率、降低成本以及支持商业银行的数字化战略具有重要性和必要性。
以下是针对根据已发信息,针对体量巨大的家大型银行AIOPS建设情况进行了信息整理,包括建设背景、平台建设、平台建设、应用场景以及运维生态等,详情如下:
建设背景:2019年起,运营中心践行金融科技战略,以项目群的方式启动了智能运维体系建设,目前主要是在数据中心私有云平台重点投入建设,包括在创新处以及应用处两个部门进行推广华体会体育(中国)hth·官方网站。公有云平台目前正在规划智能运维的建设,以龙舟云运维智能化方向为主。
场景建设:以运维数据为基础,实现指标异常检测、日志异常检测、精准告警等基础运维数据分析场景,同时结合业务实现业务健康监测、业务影响分析等综合场景,初步建成了具体感知力、控制力、决策力的企业级智能运维体系。
建设背景:建设全行统一的“运维数据分析平台”,形成容纳海量运维数据的运维数据集市,解决运维数据存储不集中、数据不规范等问题;构建全行运维数据统一分析平台,推进运维数据应用的深度和广度,实践智能监控、智能运维等AIOps分析场景,为信息系统建设战略提供决策依据,为该行信息化转型提供动力。
平台建设:建立统一的运维数据集市,集中采集运维数据入库,对数据模型统一管理,并进行数据的标准化治理。
应用分析场景建设:以运维数据为核心,打通一体化生产运维平台体系内的关联系统,如监控平台、操作平台、管理平台、统一门户和配置中心,建设智能分析应用场景,包括异常检测、性能分析、趋势分析、故障诊断以及系统画像等场景。
2018年筹划运维服务一体化能力建设,建立运维场景应用生态,2019年10月由科技与产品管理局牵头启动一体化生产运维平台体系建设工程需求场景化,2020年全年上线个大运维场景通过场景建设,逐步实现“5分钟异常发现、10分钟故障定位、20分钟异常恢复”的目标。
建设背景:从智能监控的场景开始探索智能运维体系的建设,从传统数据平台到具备实时处理能力的运维大数据平台转型,拉通融合运维管理工具,从整个智能运维体系的建设上实现平台一体化、数据标准化、场景自主化以及运维智能化。整个运维模式实现了从人工、割裂到智能、自动一体的质的转变。
平台建设:数据平台的搭建基于华为大数据平台,先后经历了从偏事后分析、报表分析到可实时处理、实时监控预测的运维大数据建设;同步开展运维数据的治理工作,尤其日志平台进行了非常规范化的治理,实现了跨运维、生产、安全、运营等部门全行级数据服务。
场景建设:以监控系统智能化、日志系统标准化、规范化为建设初发点,逐渐开展运维数据中心的智能运维分析场景建设。基于业务运维需求从发现问题、定位问题、解决问题的不同环节全面智能化。目前正在建设可观测的全行一体化智能运维平台。
建设背景:智能运维的建设源于信创国产化,最早是为了替换Splunk数据分析平台。从17年开始逐步建立运维大数据平台,实现数据清洗及规范化,提升数据查询及实时数据处理能力,为智能运维打下数据基础。专注业务运营分析,建立业务分析模型,通过关联运维数据,为业务整体运营实现实时的运营决策支持。
平台及场景建设:打通20多套运维管理工具,建立运维数据中台,实现日志分析与展现、交易特征分析、系统画像、运维内控分析等场景。20年至今在持续治理运维数据,构建支持多中心运行的数据中台,以应用为核心拉通运维数据关联,实时关注业务运维及健康、同时还进行了运营管理、系统健康状态、业务连续性等场景的建设。
智能运维建设大体可分三个阶段:第一阶段为准备阶段,完成平台搭建、数据治理等基础工作;第二阶段面向应用,梳理业务场景,分析哪些场景可以自动化、如何与算法相结合等;第三阶段是进一步的发展建设,能够实现智能决策和故障自愈。
以变更为例,端到端自动化运维流程包括:屏蔽告警-关闭中间件-下发升级文件-备份数据库-升级中间件-开启中间件-更新CMDB-告警屏蔽解除。自动化运维在提高运维效率、减轻运维人员工作量的同时也带来自动化工具失效的风险,需要制定相应的应对策略。
智能运维基于平台化理念,将智能运维算法服务嵌入PaaS,对外以容器的方式支撑上层的不同场景应用,底层为数据交互层,通过机器学习和模型训练进行参数调优。最终呈现的场景是,不同的应用对应不同的容器,算法、参数等打包在容器中。交易期间和非交易期间采取不同的运维方案,进行周期性检测。这种算法的好处是即便数据缺失不全,也可以基于海量历史数据进行训练和回归,从而有效捕捉故障点。在单指标异常检测的实例中,通常有两种情况,一种是对系统进行压力测试,引发系统流量突增;另一种是因系统故障引发的流量陡增或陡降,通过智能算法对系统的流量相关指标分析可以快速、准确判断出导致指标异常的原因并捕捉故障点。
A、收集信息:通过CMDB运维管理平台收集相关信息,包括服务器、应用程序、网络设备等的配置信息、性能指标、日志等。这些信息可以帮助您更好地了解问题的根源。
B、分析问题:根据收集到的信息进行分析,找出可能的原因和解决方案。例如,如果发现某个服务器的CPU使用率过高,可能是由于某个应用程序占用了大量的资源导致的。此时可以尝试优化该应用程序或者调整服务器的配置来解决问题。
C、解决问题:根据分析结果采取相应的措施来解决问题。例如,可以对应用程序进行优化或者调整服务器的配置来解决问题。
D、此外CMDB还可以用于应用系统的配置管理,存储与管理IT架构中设备的各种配置信息,通过识别、控制、维护,检查各种IT资源,从而高效控制与管理不断变化的IT基础架构与IT服务,并为流程,例如事故管理、问题管理、变更管理、发布管理等流程。
综上所述,目前商业银行的AIOps建设基本是以监控系统智能化、日志系统标准化、规范化为建设出发点,逐渐开展运维数据中心的智能运维分析场景建设。建设智能分析应用场景,包括异常检测、性能分析、趋势分析、故障诊断以及系统画像等场景。AIOps建设的前期工作主要是运维数据治理、业务梳理,数据治理解决数据标准化、准确性的问题;业务梳理是实现业务全流程监控,问题智能定位、诊断的前提 。另外,商业银行大部分正在建设可观测的全行一体化智能运维平台。