01什么是高可用性?首先,我们需要理解什么是高可用?维基百科的定义如下:高可用性(英语:High Availability,缩写为 HA),IT术语,指系统无中断地执行其功能的能力,代表系统的可用性程度。是进行系统设计时的准则之一。基本上来说,就是要让我们的计算环境(包括软硬件)做到full-time的可用性。在架构上来说,需要考虑如下设计:1. 对软硬件的冗余,以消除单点故障。任何系统都会有一个或多个冗余系统做standby。
2. 对故障的检测和恢复。检测故障以及用备份的结点接管故障点。这也就是failover。
02 高可用的三种模式1、主备模式 主节点工作,备节点处于监控准备状况;当主节点宕机时,备节点接管主节点的一切工作;待主节点恢复正常后,有两种恢复方式,一种是自动或手动方式切回到主节点;另一种是不切回,以前的主机沦为备节点,这种方式一般在云端采用。数据的一致性一般是通过数据库同步方式解决。案例:天翼云/华为云MySQL数据库服务的主备实例,如下图所示:2、双活模式
主节点和备节点同时运行,通过全局负载均衡器负载分摊访问流量,当主节点机宕机时,备节点机立即接管它的一切工作,保证系统不间断运行;主备节点一般是共享主节点的数据库实例,备节点数据库实例同步主节点实例,可提供只读服务。案例:招商局的同城双活灾备系统就是该模式,可参考链接:百年招商局大转型,“双云”混合继往开来http://www.sohu.com/a/225597241_122592
3、集群模式
多个节点构成集群,一起工作,有如下特点:多主架构,去中心化;集群不同节点之间数据实时同步,没有延迟;在出现数据库故障时,因支持多点写入,切换容易;在服务期间,可支持节点增加或删除的“热插拔”;集群的维护,对应用程序是透明的。案例:天翼云/华为云分布式缓存集群实例,其架构图如下所示:所有的redis节点彼此互联;客户端与redis节点直连,不需要中间proxy层;客户端不需要连接集群所有节点,连接集群中任何一个可用节点即可。
03 IT基础设施的高可用1、网络高可用由于网络存储的快速发展,网络冗余技术被不断提升,提高IT系统的高可用性的关键应用就是网络高可用性,网络高可用性是通过匹配冗余的网络设备实现网络设备的冗余,达到高可用的目的。比如冗余的交换机,冗余的路由器等2、服务器高可用服务器高可用主要使用的是服务器集群软件或高可用软件来实现。3、存储高可用使用软件或硬件技术实现存储的高度可用性。其主要技术指标是存储切换功能,数据复制功能,数据快照功能等。当一台存储出现故障时,另一台备用的存储可以快速切换,达一存储不停机的目的。
04 高可用性的度量系统可用性一般用n个9来度量,9越多代表全年服务可用时间越长服务更可靠,停机时间越短,反之亦然。下表提供了n个9对应的年、月、周、天的宕机时间:
宕机时间是怎么计算的呢?宕机时间顾名思义就是不可用时间,比如,可用性为99.999%(5个9),不可用性为1-99.999%=0.001%,我们算一下按照“年”来度量的宕机时间如下:365天*24小时*60分钟*(1-99.999%)≈5.26分/年。可信云官网列出的天翼云主机的业务可用性指标为99.95%,我们计算一下宕机时间:365天*24小时*(1-99.95%)≈4.38小时/年。在线系统和执行关键任务的系统,比如金融系统,通常要求其可用性要达到5个9标准(99.999%)。
05 数据一致性问题高可用系统,细节之处全是魔鬼,冗余结点最大的难题就是数据复制的数据一致性保证。冗余数据所带来的一致性问题是魔鬼中的魔鬼:如果主备节点数据复制是异步的,那么在failover的时候就会出现数据差异的情况。如果主备节点数据复制是同步的,那么就会导致冗余结点越多性能越慢。所以,很多高可用系统都是在做各种取舍,如果我们对数据库的性能要求较高,能容忍一定的数据差异,建议采用异步复制模式;如果要求数据的强一致性,能够容忍一定的性能损耗,建议采用同步复制模式,比如银行账号的余额真实体现了账户的结余,不能允许主备节点账号余额不一致,此时就必需做到强一致性。
06 高可用性总结要做到服务高可用,就必需要有备用(复本),无论是应用结点还是数据结点要做到复制,就会有数据一致性的问题,要根据业务场景来取舍我们不可能做到100%的高可用,也就是说,我们能做到几个9个的SLA我们很难计算出系统有多少的可用性,因为影响一个系统的因素实在是太多了,除了软件设计,还有硬件,还有第三方的服务(如电信联通的宽带SLA),当然包括“建筑施工队的挖掘机”。要真正保障系统的高可用性,是一件很难的事情,就算是3个9的可用性,一个月的宕机时间也只有40多分钟,即使是排名靠前的云服务商,也经常需要人肉处理故障, 一个故障处理1个多小时甚至2-3个小时,也是正常情况,当云服务商在官网上声明自己的SLA是3个9或是5个9,要切实提高自己的自动化运维处理故障的能力,不然客户会拿着官网的SLA来索赔。Copyright © 广州京杭网络科技有限公司 2005-2024 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有