中国人寿金奖实践:突发故障0延误,RPA让业务“不掉链子”

近日,凭借过硬的技术能力和创新思维,中国人寿IT部在中国RPA+AI开发者大赛中斩获“大赛金奖”。结合企业实际需要研发并搭建了RPA(Robotics Process Automation)+AIOps(Artificial Intelligence for IT Operations)平台,让人工智能和自动化技术真实赋能业务流程。

中国人寿金奖实践:突发故障0延误,RPA让业务“不掉链子”

面对多元竞争的中国公有云市场,500强企业中国人寿在微服务的云化部署中遇到了靠“人工”“产品自身强化”都难以解决的问题,微服务数量多,架构不同,人工难以实时响应,怎么破?中国人寿IT部结合自身需求找到了一套既节约成本,还保障业务运转“不掉链子”的应急方案。

为了提升其业务连续性和高可用性,中国人寿借助弘玑RPA(Robotics Process Automation)+AIOps(Artificial Intelligence for IT Operations)技术构建了故障识别和自恢复能力。

这项创新的技术应用为中国人寿带来了巨大的应用价值,这项创新也为中国人寿在RPA中国大赛中夺得金奖,引发行业瞩目。通过异常自动恢复,保障了应用的高可用性,实现了运行故障的快速隔离和系统负载的快速补偿。通过实际的使用,该技术有效地应对了多个突发事件,降低了故障的影响面,并为运营决策争取到了更多的时间。

1
 云化部署难落地,RPA来救急

根据IDC发布的中国公有云市场报告,2022年下半年中国公有云市场规模将达188.4亿美元,其中阿里云、腾讯云、华为云、电信等头部云厂商排名发生了巨大的变化,具体市场份额占比最高为36.7%,最低为8.9%。

云计算行业目前已经出现了马太效应,一方面是一些企业不断做大做强,另一方面是一些中小型云计算厂商聚焦在特色、优势行业里深耕,垂直做深做厚,中小型云计算厂商则转型为提供云计算技术咨询、实施的服务厂商。整个云计算行业一改当初所有云计算厂商都扎堆IaaS的局面,增速也逐步趋稳,云计算厂商之间的竞争进一步加剧。区域化差异明显,在亚太区有很明显的区域效应,作为发源于亚太区的阿里云,市场占比明显高于其他区域;而在欧洲和美国区域,AWS、微软、谷歌则占据绝对优势。

微服务的云化部署给产品团队的服务带来了清晰的关系架构,但也产生了巨大的生产保障压力。

目前,大部分企业、产品团队对于云上微服务运行状态的持续监控、突发情况的应急处理目前仍需要相当高昂的人力成本与时间成本,对于常见集中生产资源引发的问题无法有效规避,非工作时间出现的生产时间无法快速应对。云化部署在应用过程中产生的问题有:微服务数量多,人工运维监控难度大,微服务架构不同,相同问题难以形成统一解决方案,大多数云平台高可用方案需要对服务进行改造,特殊时间异常难以组织人员及时响应,针对服务异常问题的处理流程繁琐,处理困难大。

于是,中国人寿IT部开始借助RPA+AIOps技术构建故障识别和自恢复能力的自主创新之路,通过异常自动恢复保障应用高可用,实现运行故障快速隔离、系统负载快速补偿,通过实际使用,可有效应对多个突发事件,降低故障影响面,为运营决策争取到更多时间。2
386次成功自愈,保障业务连续性

上线3个月,对接云化科技产品21个,注册自愈服务151个,触达386次成功自愈,平均响应耗时60秒,实现对系统关键时点在资源、负载、异常情况下的有效补偿,保障业务连续性。推广RPA云化微服务异常检测机器人将为行业的发展带来更强的内生动力,为服务提供运行时的强效保障,推动行业的高效快速发展,为PaaS平台部署的产品提供优秀的平台级自动化恢复能力,进一步提高云化微应用的高可用性,主要体现在:

提升应用系统可靠性:PaaS平台微服务自动恢复能力能够自动检测微服务故障并快速恢复,从而保障应用系统的持续稳定运行,提升整体系统的可靠性。

降低运维成本:PaaS平台微服务自动恢复能力能够减少运维人员排查和解决故障的时间,降低运维成本,提高运维效率。 

提升用户体验:PaaS平台微服务自动恢复能力能够保障应用系统的稳定性和可靠性,从而提升用户体验,增强用户对产品的信任度。

提升服务治理能力:PaaS平台微服务自动恢复能力能够提升微服务治理能力,实现微服务的自动化管理和运维,提升整个应用系统的可维护性和可扩展性。

弘玑RPA技术为故障识别和自恢复提供了强有力的支持。RPA技术通过模拟人的操作,实现了自动化的业务流程执行。在故障识别方面,弘玑RPA技术能够通过监控系统日志、异常报警和性能指标等数据源,及时发现应用系统中的异常情况。一旦发现异常,RPA机器人会立即响应,并根据预设的规则和逻辑来执行相应的故障隔离和自动恢复操作。

更重要的是,弘玑RPA+AIOps技术为运营决策争取到更多的时间。由于故障能够被迅速隔离和修复,系统运行稳定性得到保障,使得运营决策者能够更加稳定和准确地获取系统和业务数据。这为他们做出有效的运营决策提供了更强的支持,有效地推动了整个业务的发展。

声明:
1.本内容作为作者独立观点,不代表RPA学习天地立场,RPA学习天地仅提供信息存储空间服务。
2.未经允许不得转载,如需转载和授权,请联系工作客服微信号。
3.如果对本稿件有异议或投诉,请联系邮箱或工作客服微信号。
作者:RPA学习天地,如若转载,请注明出处:https://www.rpa-learning.com/rpa-learning/7603