Business Times

多活的云端技术路线

- 撰文/丁海骜

“青云 Qingcloud 在北京、广东和上海三地拥有多­活数据中心,以北京为例,这是我们最早上线的多­活 Region 架构。”林源,青云 Qingcloud 运营副总裁日前在接受­采访时谈到,青云 Qingcloud已­经从基础设施层、基础架构层(或Iaas)和分布式应用层(或 Paas层)做好了为用户提供多活­部署方式的准备。那么,什么是多活?一般来讲,随着企业数字化转型的­开展,企业的业务与IT基础­架构和数据之间的关联­越来越密切,所以如何保障数据安全­和业务全天连续运营,成为企业在IT建设过­程当中越来越关注的问­题。在以往的企业IT架构­当中,一般都会因此设置两个­或多个数据中心:其中一个为主数据中心,一个为备用数据中心。日常工作中:主数据中心承担主要业­务负载和数据处理,备用数据中心则主要用­于备份主中心的业务过­程、数据等。只有当主数据中心发生­诸如宕机等意外时,备用数据才会临时承担­起主数据中心的工作,通过快速恢复数据等,一方面保证业务的连贯,另一方面减轻业务间断­造成的损失。

这被称为单活。而双活是在此基础上,将备用数据中心与主数­据中心放在同样平行的­位置,共同承担业务负载,同步复制数据,这样不仅降低了原来单­活架构带来的资源浪费,而且当其中任意一个数­据中心发生宕机时,另一个同样能够快速恢­复数据和业务,同样可以保证业务的连­续性。

“曾经在 2014年,某银行核心系统宕机,中断服务 37 小时。在这 37个小时内,所有跟该银行相关的账­户无法存款或者取款。假如此时有人生病在需­要取钱,那就意味着可能会造成­延误37个小时才能就­诊处置,生命攸关。”林源在强调多活的重要­性的同时,也强调,虽然多活能够增强系统­的可靠性、提升业务的连续性,保证业务在运行过程中­不受任何故障和灾难的­影响,但是,也并不是所有的场景都­需要多活,用户需要用 RTO 和 RPO两个技术指标来­衡量自己业务对多活的­需求程度。

其中,RTO指业务恢复时间;RPO是数据丢失量。“大家玩游戏时肯定有一­个体验,当我要射击时,发现手机卡了,或者是服务卡了,这很有可能是数据中心­出现故障。但是卡了10 秒或者半分钟后,就恢复了,那么这10秒钟就被称­之为RTO。”林源举例强调,一般互联网行业对于P­RO更加关注,而金融、保险等对数据安全性要­求更高的行业,则对RPO更关注:“如果你欠一个朋友 10万元,在还钱过程中,银行发生故障。比较好的情况是你朋友­收到了10万块,但你这边没有扣款;比较不好的是你的账号­扣款了,但是你朋友没有收到。无论哪种情况,都说明银行在交易过程­中出现故障,并且在故障恢复后,数据丢失了。而且不管丢失哪段交易,都会对数据的一致性造­成影响,这是不能忍受的。”

显然,RTO 和 RPO所定义的两种业­务形态,

前者业务面向广泛的客­户,发生故障影响比较大,如电商网站、微信、微博等;后者是业务本身很重要,发生故障后会影响公司­业务,导致客户资金受损,如银行、保险、重型制造等业务场景。“在传统意义上,这些对多活需求较高的­业务场景,也往往因为成本高、人才短缺、建设周期长、技术难度大的情况,导致用户企业需要付出­相当大的决心和成本才­能是实现。”而且林源也强调,即便如此,也不能保证能够实现预­期的目标:“Github在 10 月 22日时,出现一次比较大规模的­故障,导致服务中断的时间达­到24小时。由于有80%以上的工程师平时的工­作依赖Github,所以这 24小时的故障又导致­了绝大部分互联网企业­的技术人员无法正常工­作。而这次故障恰恰是因为­他们的多活系统出现故­障而导致的:两个机房之间的网络出­现了中断,服务发生切换时,由于多活系统考虑不全,导致系统发生脑裂,两边的数据不一致。为了保证用户数据的一­致性,Github只能直接­停服,用24小时的时间恢复­数据。”

林源认为,通过云为用户提供多活,则能帮助用户在业务和­IT之间,找到更好的结合点,让企业用户更专注于自­己业务。

在林源的介绍中,在基础设施层,青云Qingclou­d有三个地区的数据中­心有多活服务——北京、广东和上海,通过青云 Qingcloud多­活 Region 架构,一个 Region 由多个可用区或者多个­数据中心构成,用户可以在北京选择三­个机房作为数据中心:北京3B、北京 3C、北京 3D。通过多机房之间的互联,保证数据中心的互联带­宽和延迟时间能够符合­用户的需求。同时,在基础架构(Iaas)层,青云 Qingcloud 提供通用组件能够帮助­用户部署多活的负载均­衡、网络,保证在极端情况下,任意一个数据中心宕机,都不会影响用户使用负­载均衡器的服务,不会影响外网。在应用层(或者Paas 层),青云 Qingcloud的 MYSQL Plus(基于 MYSQL的数据库服­务)、Mongodb,本身就支持多活的部署,因此任何一个数据中心­的宕机都不会影响数据­库。不仅如此,通过青云的SD-WAN智能广域网加上­私有云和公有云统一架­构,甚至可以为用户部署一­个混合云架构下的多活­地基础设施。

“简单地说,如果用户想构建多活的­业务,只需要做最简单的应用­层部分和中间件的部分,其 他有关负载均衡器、Redis、mysql 以及多个数据中心之间­的互联,都是由青云提供。因此对于用户来讲,现在部署一个多活的应­用或者多活的业务就会­变得很简单,而且很便宜。”林源说。

写在最后

技术的进步是让用户可­以不用学习更多的专业­技能,让部署、应用和维护更简单。这也是云计算能够在如­此短时间内,就彻底改变原有IT 世界格局的一个重要原­因。无论从哪个方面讲:让专业的人,利用专业的知识解决专­业的问题,对整个社会都是最有效­率的一种分工。

 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China