12 KiB
灾难备份与恢复
一、灾难备份与恢复基础
了解灾难备份、灾难恢复计划的概念及作用;
理解RTO、RPO等灾备的关键指标;
了解国家灾备相关政策与标准;
了解灾难恢复组织结构。二、灾难恢复相关技术
了解DAS、SAN、NAS存储技术的概念及应用区别;
了解全备份、增量备份、差分备份等备份方式的区别;
了解常用的备份介质;
理解磁盘余阵列RAID-0、RAID-1、RAID-5等配置的差别;
了解冷站、温站、热站等概念。三、灾难恢复策略
了解国际标准SHARE78对灾难备份的能力划分的0~6级的区别;
理解我国《重要信息系统灾难恢复指南》中划分的6个灾难恢复等级要求;
了解企业常用的容灾策略中数据容灾、系统容灾应用容灾的概念;
了解确定灾难恢复能力级别的方法。四、灾难恢复管理过程
了解灾难恢复管理规划的作用及工作过程;
理解灾难恢复需求分析风险分析、业务影响分析和确定灾难恢复目标三个子步骤的工作内容和目标;
理解灾难恢复策略制定的原则和工作方法;
了解灾难恢复策略实现的工作步骤和要求;
了解灾难恢复预案的制定与管理工作内容及要求。
一、灾难备份与恢复基础
1、灾备概念
- 为了保证关键业务和应用在经历各种灾难后,仍然能够最大限度的提供正常服务所进行的一系列系统计划及建设行为,其目的就是确保关键业务持续运行以及减少非计划岩机时间;
- 灾难备份是灾难恢复的基础,灾难恢复不能只考虑信息系统的恢复,更应关注业务的恢复。
灾备包括灾难备份和灾难恢复两层含义。
2、灾难恢复计划(DRP)
- 定义信息系统灾难恢复过程中所需的任务、行动、数据和资源的文件,用于指导相关人员在预定的灾难恢复目标内恢复信息系统支持的关键业务功能。
灾备指标是用于衡量组织机构容灾性能的重要参考指标,在这些指标中,恢复时间目标(RecoveryTimeObjective,RTO)和恢复点目标(RecoveryPointObjective,RPO)是其中两个非常重要的指标,能很好地反映出容灾性能如何。
3、恢复点目标(RPO)
RPO是指在业务恢复后的数据与最新数据之间的差异程度,这个程度使用时间作为衡量指标。这个差异主要与数据的备份频次有关,备份频次越高,当业务发生故障时,丢失的数据就越少。例如一周进行一次备份,那么系统发生故障时,丢失的数据最多可能会达到一周,而数据一天一备的情况下,最多丢失一天的数据。RPO的值越小,灾备的性能越好,如果RPO=0,说明数据是实时备份,不会出现数据丢失的情况。
- 定义:灾难发生后,系统和数据必须恢复到的时间点要求
- 代表了当灾难发生时允许丢失的数据量
4、恢复时间目标(RTO)
RTO是系统发生故障到恢复业务所需要的时间,也就是容许服务中断的时间。RTO值越小,系统从故障中恢复的时间就越短,说明系统从灾难中恢复能力就越强,如果RTO=0,那么服务就不会中断。
- 定义:灾难发生后,信息系统和业务功能从停顿到必须恢复的时间要求
- 代表了企业能容忍的信息系统和业务功能恢复的时间
RPO和RTO两个指标从不同的角度来反映灾难备份和恢复的能力,RTO和RTO都为0是最完美的解决方案,因为在两个值都为0的情况下,意味着系统永不中断服务,而且完全没有数据丢失。当然,要达到这样的目标,系统建设投入会非常巨大。
5、组织构成
- 领导组、规划实施组、日常运行组
- 规划工作可聘请外部专家,实实施和运行也可委托外包机构承担
6、国家灾备政策及相关标准
- (2003年)27号文首次提出灾备概念。
- (2005年)《重要信息系统灾难恢复指南》:指明了灾难恢复的工作流程、等级划分和预案的制定框架。
- (2007年)GB/T 20988-2007,《信息系统灾难恢复规范》规定了灾难恢复工作流程、灾难恢复等级,以及方案设计、预案、演练。
- 《信息系统灾难恢复规范》是灾备行业目前唯一的一套国家标准。
- (2013年)《灾难恢复中心建设与运维管理规范》指出了灾备中心建设的全生命周期、灾备中心的运维工作。
二、灾难恢复相关技术
1、存储技术
-
直接附加存储(DAS)
直接连接在各种服务器或客户端扩展接口下的数据存储设备,依赖计算机,是硬件堆叠,不带操作系统。
-
优点:适用物理位置分散情况、容易实现大容量存储,性能较高、实施简单;
-
缺点:对服务器依赖性强,占用服务器资源、扩展性较差、资源利用率低、可管理性差。
-
-
网络附加存储(NAS)
- 直接通过网络接口将存储设备与网络相连实现数据存储的机制;
- 有独立IP地址,操作系统等;
- 优点:易于安装、部署和管理、不占用服务器资源、可跨平台使用;
- 不足:性能相对较差,因为数据传输使用网络,可能影响网络流量、甚至可能产生数据泄漏等安全问题。
-
存储区域网络(SAN)
- 优点:专用网络、效率高、扩展方便
- 不足:成本高、实施复杂、难度大
2、备份技术
-
备份方式
- 完全备份(全库备份,全部备份)
- 增量备份
- 差量备份(差分备份、差异备份)
在备份技术中,主要包含全部备份、增量备份和差分备份3种备份方式:
① 全部备份是对整个系统所有文件进行完全备份,包括所有系统和数据;
② 增量备份是每次备份的数据相当于上一次备份后增加和修改过的数据;
③ 差分备份是每次备份的数据相对于上一次全部备份之后新增加和修改过的数据。 -
备份介质
- 磁带
- 硬盘
-
冗余磁盘阵列(RAID)
- 实现方式
- RAID-0(条带):提高了磁盘子系统的性能,但不提供容错能力
- RAID-1(镜像):磁盘一对一镜像,确保数据不丢失
- RAID-5(奇偶校验):三块以上磁盘,其中一块作为校验信息,允许第一磁盘损坏
- 可基于硬件,也可基于软件
- 实现方式
-
备用场所
三、灾难恢复策略
1、国际标准SHARE78
- 划分依据:八个方面
- 灾难备份能力0~6级
- 0级:无异地备份
- 1级:简单异地备份
- 2级:热备中心备份
- 3级:电子传输备份
- 4级:自动定时备份
- 5级:实时数据备份
- 6级:数据零丢失
2、重要信息系统灾难恢复指南(我国)
- 划分依据:七个要素
- 6个灾难恢复等级
- 第1级 基本支持
- 第2级 备用场地支持
- 第3级 电子传输和部分设备支持
- 第4级 电子传输及完整设备支持
- 第5级 实时数据传输及完整设备支持
- 第6级 数据零丢失和远程集群支持
3、组织容灾策略构建
根据对灾难的抵抗程度,容灾技术可分为以下三种:
- 数据容灾(首要前提)
- 系统容灾(基本基础)
- 应用容灾(主要关键)
四、灾难恢复管理过程
1、灾难恢复规划的工作内容
2、灾难恢复需求分析
- 风险分析
- 资产、威胁、月脆弱性、可能性、影响
- 业务影响分析
- 分析业务功能和相关资源配置
- 评估中断影响
- 确定灾难恢复目标
- 关键业务功能及恢复的优先顺序
- RTO和RPO的范围