当前,随着商业银行数字化转型的不断深入,各种新技术、新架构持续迭代更新,并对转型过程中的系统高可用能力带来了极大挑战。对此,商业银行在进行高可用设计时不仅要对产品、技术、架构等进行可用性评估,加强对新技术、新架构的风险控制,还需要引入高效的自动化工具提供自主可控的运营服务,特别是强化出现生产故障时的应急处置能力,减少和消除意外出现的生产故障中断时间。尤其在运营能力方面,首先要打造一支思想统一、技能齐备的技术团队,既能够遵从安全第一的工作要求,具备严谨、审慎的合规意识,同时还需掌握专业技术、具备创新意识,能够通过DevOps、SRE的方法打造适合自身使用的特色化工具。此外,运营能力建设离不开配套的自动化工具支持,以更好地满足数据中心云化后的大规模运维需求以及数据中心高可用要求。
二、数据中心基础设施高可用提升方法及案例说明
本文以数据中心基础设施中的网络系统为例,结合网络架构和网络运维能力的现状,从技术架构、运营能力两方面开展案例分析,总结提出系统分层级的高可用提升方法,并围绕高可用技术、运营能力转型实践等展开了分析说明。
1.基础设施可用性提升
网络系统作为数据中心基础设施的核心组件之一,其系统可用性内容大致可划分为设备级可用指标、功能级可用指标、区域级可用指标、园区级可用指标等四个层级,并依次自下而上构成了数据中心的高可用能力之一(如图1所示)。其中,网络架构高可用设计以增加网元、线路、节点、区域等结构冗余度为核心思路,旨在使每一层均能够充分应用技术路线的可扩展能力,进而基于各层级的高可用能力建设,最终顺利到达并具备业务可用层能力。在这一阶段,业务连续性指标可达到99.999%的可用率,并作为核心能力之一,支持向用户提供高价值的数字化产品和服务。