中小银行信息中心 数据整合与容灾分析报告
北京xxxx公司 2009年3月
中小银行信息中心数据整合与容灾 分析报告
目 录
第1章 前言 ............................................................................................................................................ 4 第2章 容灾需求分析 ............................................................................................................................ 5 2.1 灾备的发展 ................................................................................................................................... 5 2.2 中小银行数据现状 ....................................................................................................................... 6 第3章 容灾技术分析 ............................................................................................................................ 7 3.1 容灾技术选择 ............................................................................................................................... 7 3.1.1 RTO和RPO .......................................................................................................................... 7 3.1.2 容灾的7个层次 ................................................................................................................... 7 3.1.3 远程容灾技术选择 ............................................................................................................. 10 3.2 采用备份软件的定时备份 ......................................................................................................... 12 3.3 IBM存储的实时数据复制 ......................................................................................................... 14 3.3.1 IBM同步数据复制技术 ...................................................................................................... 15 3.3.2 IBM异步复制技术 .............................................................................................................. 17 3.4 HDS存储的实时数据复制 ......................................................................................................... 19 3.4.1 HDS同步数据复制技术 ..................................................................................................... 19 3.4.2 HDS异步复制技术 ............................................................................................................. 20 3.4.3 HDS通用复制(UR)软件技术 ........................................................................................ 22 3.5 各产品异步复制技术的分析 ..................................................................................................... 25 第4章 整体方案与数据整合 .............................................................................................................. 26 4.1 整体建设步骤 ............................................................................................................................. 26 4.2 本地中心数据整合 ..................................................................................................................... 27 4.2.1 本地中心建设原则 ............................................................................................................. 27 4.2.2 本地中心存储建设 ............................................................................................................. 29 4.2.3 数据的迁移 ......................................................................................................................... 31 第5章 容灾中心建设 .......................................................................................................................... 33 5.1 容灾系统概述 ............................................................................................................................. 33 5.2 灾备的通讯线路选择 ................................................................................................................. 34 5.2.1 通过裸光纤直连交换机,采用FC协议 .......................................................................... 34 5.2.2 通过DWDM设备直连裸光纤 .......................................................................................... 35 5.2.3 利用IP网络,采用ATM或E1、E3线路,通过FC/IP转换器 ................................... 36 5.3 定时备份的容灾方案 ................................................................................................................. 38 5.4 实时复制的容灾方案 ................................................................................................................. 40 5.4.1 同步实时复制的容灾 ......................................................................................................... 40 5.5 异步实时复制的容灾方案 ......................................................................................................... 42 5.5.1 同异步技术的分析建议 ..................................................................................................... 43 5.6 基于应用的系统容灾 ................................................................................................................. 44 5.6.1 基于应用的容灾要素 ......................................................................................................... 44
- 2 -
中小银行信息中心数据整合与容灾 分析报告
5.6.2 容灾的切换与恢复流程 ..................................................................................................... 45 5.7 未来的扩展:三数据中心 ......................................................................................................... 46 5.7.1 级联(Cascade)容灾方案 ............................................................................................... 47 5.7.2 多目标(Multi-Target)复制方式 ..................................................................................... 48 5.7.3 三中心的建议 ..................................................................................................................... 48
- 3 -
中小银行信息中心数据整合与容灾 分析报告
第1章 前言
自“9.11”之后,全球各企业均认识到灾难防范保护的重要性。某些大型金融机构之所以能够在两天内恢复营业,其主要原因是它们不仅像一般公司那样在内部进行数据备份,而且在数英里外的数据备份中心也保留着数据备份。这些备份都是通过数据备份软件和数据复制软件进行的。采取了这种措施后,一旦工作现场发生意外,企业就可以立即使用另一套数据。华尔街的金融机构重新对灾难恢复的步骤做了评估,并认识到灾难恢复只是技术手段之一,它们开始强调 Business Continuity (业务连续性),而不仅仅是 Disaster Recovery ( \"灾难\"恢复)。因为过去的“灾难”恢复计划并没有强调全局性及对整个市场的影响,而如何维持业务的连续运作将成为企业运营风险评估中至关重要的一环。事实证明,只有对数据存储备份制定完备、持续且可执行的容灾计划,特别是业务连续计划,才能为人们提供万无一失的数据安全保护。
灾难恢复是业务连续性计划的一部分,其中还包括业务恢复计划。灾难基本上可以说是无法预测的,其造成的损失也很难精确的估计,但是有一点可以肯定,灾难的发生对于企业来讲往往是致命的,因此,企业必须有所准备。
企业实施灾难恢复的计划首先对其应用系统进行评估,分清哪些是关键的系统,并对其运行环境进行评估,判断发生灾难的可能性有多少。若发生,关键系统中断运行的时间有多长?中断后对企业的影响有多大?有多少?哪些资料会丢失,有没有解决的办法和措施等。
北京XXXX电子技术有限公司的专业服务可以为您提供这些评估服务,这些咨询服务是根据企业的关键系统、数据量、交易量、网络和数据保护情况等因素做出对业务影响分析报告,进而做出解决方案,从而保证当灾难发生后对您业务和应用的影响降至最低。
- 4 -
中小银行信息中心数据整合与容灾 分析报告
第2章 容灾需求分析
2.1 灾备的发展
2005年4月,信息化办公室出台了《重要信息系统灾难恢复规划指南》,指导信息系统使用和管理单位的灾难恢复规划工作,促使银行业灾难备份建设步伐逐步加快。人民银行在无锡建立了灾难应急备份中心,计划在上海建设支付系统数据备份中心。国家开发银行在央行无锡灾备中心完成了异地数据备份存放,并在年内筹建北京同城灾备中心。工商银行已建立了南北两大数据中心。农业银行数据集中尚未完成,部分省分行的数据中心建立了同城异地灾难备份中心。中国银行灾备中心正在建设之中。建设银行的部分重要系统也做到了同城异地备份。可见很多大型股份制商业银行基本完成了灾备中心建设。
总体上看,我国银行业灾难备份建设已有很大进展,但灾难恢复体系基础仍很薄弱,存在一些亟待解决的问题。如对灾难恢复工作的重要性、紧迫性认识不足,许多重要应用系统还没有采取基本的数据级灾难备份措施,重要应用系统灾难备份的法规和标准不完善,灾难备份建设缺乏统一的规划和部署,中小银行灾难备份中心建设存在资源、费用困难等。
可以说城市商业银行和信用社灾备进程已明显落后,在系统灾难备份方面几乎是空白。按照国际上的share 78容灾标准,大多数城市商业银行还处于很低的水平。国际标准share 78定义的容灾系统有七个层次,即Tier0(没有异地数据)至Tier6(零数据丢失,远程磁盘镜像与自动切换)。而目前大多数城市商业银行的灾备能力也就处在Tier0级,就是说数据仅在本地进行备份恢复,没有把数据送往异地。这种方式是最为低成本的灾难备份解决方案,但事实上这种灾难备份并没有真正灾难恢复的能力。
当然,很多商行、农信已意识到这一点,开始提前进行灾备系统建设,但目前商行、农信已实现的灾备系统主要采用本地数据复制,异地定时磁带备份的方式,而更高级别的Tier5级以上的数据保护,如异地数据实时灾备系统是其发展的必然趋势。
- 5 -
中小银行信息中心数据整合与容灾 分析报告
2.2 中小银行数据现状
当前国内各中小银行业务近年来发展得很快,业务数据不断加速增长。这些数据是现代银行运作的核心,必须有完善的保护措施。在业界当前的趋势下数据的可用性和安全性对企业的影响越来越大, 关键数据的丢失,可能给企业造成巨大的经济和信誉损失。甚至可以说数据直接影响到一个企业的生存。
综合来看,中小银行已采取的防护措施包括:
主机集群软件可以有效的实现系统数据的本地双机实时复制 磁盘阵列采用RAID机制保护了单硬盘损坏下的数据安全 采用内置等磁带机手工备份数据 结构简单技术含量低
以上数据安全保护级别虽然可以在很大程度上避免软件故障,人为误操作等事件对数据的损坏.但还不足以承担重大局部突发事件特别是莫些不可抗事件对数据安全的影响.我们设想几种情况:
当发生火灾或类似于9-11事件的灾难时会直接导致所有业务服务器包
括本地备份介质的损坏.而这种损坏甚至是可能无法恢复数据! 阵列的多硬盘损坏造成数据丢失,而这时才发现手工备份的数据也不可
用或根本未及时更新
生于忧患、死于安乐!当我们的商行农信用户大力发展信息系统建设时,其实我们对电子信息数据的依存度也达到了100%。侥幸的心理往往使我们忽略一点:也许我们永远不会有灾难,但一次严重的不可恢复的数据丢失将使业务彻底崩溃。实际上很多的用户还没有意识到灾备的重要性,这与西方国家强烈的灾备意识差距很大。
因此为提高农信关键业务数据的安全性必须设计一种更高级别的数据保护方式:基于硬件级别的实时数据灾难备份。
- 6 -
中小银行信息中心数据整合与容灾 分析报告
第3章 容灾技术分析
3.1 容灾技术选择
3.1.1 RTO和RPO
在详细讨论容灾的技术前,首先要明确的是灾难复原的目的不是仅仅得到相同的数据拷贝,而是如何在灾难发生后如何复原应用的运行,重要的是如何保证灾难发生后备份的数据可用。
恢复时间目标(Recovery Time Objective,简称RTO):RTO表示了从灾难发生直到业务流程再次运行(即被恢复)的时间。RTO有两个组成部分,明确灾难发生后指示恢复流程开始的决策时间(Decision Time)和进行灾难恢复流程的实施时间(Deployment Time)。一般来说,恢复时间(RTO)越短,那么灾难恢复方案的成本就越高,但是由于灾难造成的业务损失就越小;反之,恢复时间(RTO)越长,灾难恢复方案的成本较低,但是由于灾难造成的业务损失就较大;
恢复点目标(Recovery Point Objective,简称RPO): RPO是灾难发生后业务能够容忍的数据丢失量,或者说灾难发生造成的数据丢失量。一般来说, RPO越高(即,丢失的数据越少),容灾的成本越高,但是由于灾难造成的业务损失就越小;反之,RPO越低(即,丢失的数据较多),容灾的成本越低,但灾难造成的业务损失也越大。
3.1.2 容灾的7个层次
据国际标准SHARE78的定义,灾难恢复解决方案可根据以下主要方面所达到的程度分为七级,即从低到高有七种不同层次的灾难恢复解决方案。可以根据企业数据的重要性以及您需要恢复的速度和程度,来设计选择并实现您的灾难恢复计划(参见图3)。这取决于下列要求:
备份/恢复的范围 灾难恢复计划的状态
在应用中心与备份中心之间的距离 应用中心与备份中心之间是如何相互连接的
- 7 -
中小银行信息中心数据整合与容灾 分析报告
数据是怎样在两个中心之间传送的 有多少数据被丢失
怎样保证更新的数据在备份中心被更新 备份中心可以开始备份工作的能力
现已证明,为实现有效的灾难恢复,无需人工介入的自动站点故障切换功能是一个必须被纳入考虑范围的重要事项。目前通用的异地远程恢复标准采用的是1992年Anaheim的SHARE78,M028会议的报告中所阐述的七个层次:
图 1 容灾系统的7个层次
0层- 没有异地数据(No off-site Data)
Tier0即没有任何异地备份或应急计划。数据仅在本地进行备份恢复,没有数据送往异地。事实上这一层并不具备真正灾难恢复的能力。
1层- PTAM卡车运送访问方式 (Pickup Truck Access Method)
Tier1的灾难恢复方案必须设计一个应急方案,能够备份所需要的信息并将它存储在异地。PTAM指将本地备份的数据用交通工具送到远方。这种方案相对来说成本较低,但难于管理。
2层- PTAM卡车运送访问方式+热备份中心 (PTAM + Hot Site)
Tier2相当于Tier1再加上热备份中心能力的进一步的灾难恢复。热备份中心
- 8 -
中小银行信息中心数据整合与容灾 分析报告
拥有足够的硬件和网络设备去支持关键应用。相比于Tier1,明显降低了灾难恢复时间。
3层- 电子链接 (Electronic Vaulting)
Tier3是在Tier2的基础上用电子链路取代了卡车进行数据的传送的进一步的灾难恢复。由于热备份中心要保持持续运行,增加了成本,但提高了灾难恢复速度。
4层- 活动状态的备份中心 (Active Secondary Center)
Tier4指两个中心同时处于活动状态并同时互相备份,在这种情况下,工作负载可能在两个中心之间分享。在灾难发生时,关键应用的恢复也可降低到小时级或分钟级。
5层– 两个活动的数据中心,确保数据一致性的两阶段传输承诺(Two-Site Two-Phase Commit)
Tier5则提供了更好的数据完整性和一致性。也就是说,Tier5需要两中心与中心的数据都被同时更新。在灾难发生时,仅是传送中的数据被丢失,恢复时间被降低到分钟级。
6层- 0数据丢失 (Zero Data Loss),自动系统故障切换
Tier6可以实现0数据丢失率,被认为是灾难恢复的最高级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,当发生灾难时,能够提供跨站点动态负载平衡和自动系统故障切换功能。
- 9 -
中小银行信息中心数据整合与容灾 分析报告
3.1.3 远程容灾技术选择
图 2 远程容灾层次
1、 基于备份软件与磁带库的解决方案 定时备份,成本低,易于实现 RPO长,数据丢失量大 2、基于应用程序容灾解决方案 应用程序在本地、远端双写I/O 复杂、麻烦、不稳定、效率低 3、基于数据库复制的远程容灾解决方案 数据库本身的远程复制(Oracle DB Guard) 不稳定、只能复制数据库文件
4、基于主机的远程数据复制软件容灾解决方案 复制软件在卷管理器层面截获I/O,远程复制 低效率、占用主机资源、价格昂贵
- 10 -
中小银行信息中心数据整合与容灾 分析报告
5、基于存储的远程数据复制容灾解决方案 智能存储远程数据复制
安全、成熟、简单、高效、节省资源
定时备份的容灾分析:
以上技术中,基于备份软件和磁带库的定时备份虽然RPO较长,但投资小,易于实施,可以快速部署,因此是快速建设灾难备份系统的选择,可以做为建设中小银行容灾系统的第一步。
实时复制的容灾分析:
实现最小数据丢失的实时容灾是金融用户的最终目标,而目前的手段主要基于应用、操作系统和存储设备,其中,应用和操作系统级别的复制技术都有一定局限性,用于异地容灾上需谨慎考虑。而基于存储的远程数据复制技术是属于我们上面提到的SHARE78第五层以上容灾,具有RPO和RTO短的优势,同时安全、成熟、稳定,当前的大型容灾项目基本上都基于这种技术,这也是我们重点向中小银行推荐的远程容灾技术。
当前各存储厂家都推出了各自的数据复制系统,经对比分析,从异步复制技术上主要分为2个技术阵营,其中IBM的PPRC和EMC的SRDF采用数据集合周期性发送同步的方式,而HDS、HP、SUN为统一产品(HP、SUN为OEM HDS的 存储),其异步复制采用时间戳、顺序号、一致性组的按I/O发送的方式,见下表:
同步数据复制 异步数据复制 IBM PPRC PPRC-A,按一致性组周期发送 EMC SDRF SDRF/A,按数据集周期发送 HDS TrueCopy TrueCopy-A,按I/O实时发送 HP CA CA,同上 - 11 -
中小银行信息中心数据整合与容灾 分析报告
SUN 同上 后面我们将重点介绍IBM和HDS的方案并分析对比。
3.2 采用备份软件的定时备份
一个完整的存储备份解决方案需要有统一的管理策略,建立起安全和存储管理,将日常数据的安全管理与灾难恢复系统的建设结合起来。要实现以上目标,有必要在数据管理上做到自动化存储管理,实现无忧化管理,并能实现高效简单的灾难恢复。
IBM、VERITAS等厂商都提供对主机和网络优秀的管理解决方案。针对中小银行备份管理需要和目前IT环境,XXXX定时灾难备份系统首先建议利用 IBM Tivoli Storage Manager(TSM)企业备份软件,配合主备中心的设备和磁带库,实现对数据备份的方案。
下图显示了在TSM灾难备份方案中数据在备份和恢复时的传输方式:
XXXX定时备份方案采用独具特色的Server to Server 的数据远程复制技术,实现本地备份中心和异地备份中心的数据复制,在本地备份中心和异地备份中心都会部署备份管理服务器,每个生产节点的数据保管到本地的备份管理
- 12 -
中小银行信息中心数据整合与容灾 分析报告
服务器后,本地的服务器会与异地备份中心的管理服务器进行数据复制。 生产系统的数据会不停的保存到TSM中,复制的过程也可以同时在进行。此复制的过程是采用独具特色的Server to Server 的数据远程复制技术,将保存在本地TSM存储池里的备份数据复制到远端的异地备份中心TSM相对应的存储池里。如下图所示:
在数据复制前,本地TSM服务器会对异地备份中心的TSM服务器作一致性检查确保异地备份中心的TSM服务器中保存的数据与上一次本地TSM服务器发送过去的数据一致。这是一种数据完整性的重要保证。消除了由于人为错误和传输失误造成的备份中心数据不完整。
TSM灾备方案中,数据的完整性,安全性通过以下措施得到保障: TSM对每次保管的数据都会把数据的属性(大小,存放在磁带的位置等)记录在TSM自带的DB数据库和交易记录LOG里面。TSM的引擎是一个关系数据库。迄今没有任何一家其他存储管理软件是采用关系型数据库作核心的。关系数据库的处理能力,搜索速度和对数据管理的可靠性是TSM性能超越其他采用索引文件作为引擎的备份软件的主要原因。TSM完善的介质管理能力也得益于
- 13 -
中小银行信息中心数据整合与容灾 分析报告
这个数据库引擎。
TSM的DB和LOG都支持镜像的功能。在本地与异地备份中心的TSM服务器都会在设置时对DB于LOG做镜像,使TSM服务器上的数据的完整性由于硬件出故障而造成损害的可能性降到最低。在实际的生产环境中 每次本地TSM服务器与异地备份中心的TSM服务器之间复制数据之前,会做一致性的检测。确保两端保管的数据完好和属性没发生意外的损坏。这是保证数据准确性的重要依据。
3.3 IBM存储的实时数据复制
本节介绍的基于磁盘系统的PPRC(Peer-to-Peer Remote Copy)数据级容灾解决方案,目前业界有两种基本的基于磁盘系统的远程拷贝形式:
同步PPRC远程拷贝(synchronous writes):来自主机的数据被写往本地连接的磁盘系统,该系统将数据转发给远地点连接的磁盘系统。只有当两个系统都拥有数据的拷贝以后,本地系统才会向主机返回一个I/O完成指示。同步远程拷贝能够在远地点提供最新的数据,但应用程序会因等待写I/O操作的完成而被延迟。由于距离的这种方式也叫做“同城镜像(Metro Mirror)”
异步PPRC远程拷贝(Asynchronous Write ):来自主机的数据被写往本地连接的磁盘系统,该系统立即向主机返回一个I/O完成指示。数据在很短的一段时间(在实际中通常在数秒钟到一分钟左右)以后被送往一个远程磁盘系统。异步远程拷贝对应用程序性能的影响最小,但远程磁盘系统在数据的更新程度上与本地系统相比会有一个延迟。
- 14 -
中小银行信息中心数据整合与容灾 分析报告
单纯的异步拷贝由于线路距离较远等原因,本地磁盘和远地磁盘可能会有逻辑卷读写顺序上的差异。这种方式也叫做“全局拷贝(Global Copy)”
在全局拷贝(Global Copy)的情况下,比如本地磁盘系统提供给主机5个逻辑卷,某一时刻主机对这些逻辑卷发起了A,B,C,D,E,5个写盘请求,本地的磁盘系统的写顺序是A,B,C,D,E。但是由于线路等原因,远地的磁盘系统在接收写请求时,收到的顺序可能是A,C,B,D,E。写盘的顺序也是A,C,B,D,E。我们假设灾难发生在这5个写操作D,B的中间部分,那么这时远地的数据C很有可能是没有意义的,甚至是无理的。
为了解决本地磁盘和远地磁盘可能存在的逻辑卷读写顺序的差异,有的磁盘系统提供带有一致性组的异步远程数据拷贝。在这种方式下,远地的磁盘系统会将先收到的写请求缓存起来(比如上面的数据C),等到它前面的数据(A,B)到达后,再按照顺序写盘。这种方式也叫做“全局镜像(Global Mirror)”。见下图:
IBM异步PPRC远程拷贝提供带有一致性组的异步远程数据拷贝。
3.3.1 IBM同步数据复制技术
IBM的PPRC提供了实现灾难备份的方案基础。PPRC全称Peer-to-Peer Remote Copy,是以存储为基础的实时且与应用程序无关的数据远程镜像功能。PPRC的实现较为简单,是无数据丢失且具有完全恢复功能的灾难恢复解决方案。
PPRC基于IBM ESS企业级存储服务器,以逻辑卷为基本单位,通过光纤通
- 15 -
中小银行信息中心数据整合与容灾 分析报告
道将本地ESS上的数据同步镜像到远端的ESS上。
为了在保证数据的即时性、完整性和系统性能之间达到平衡,PPRC提供了多种工作方式。
同步方式下:点对点远程拷贝(PPRC)是一种同步远程镜像的工具,可用于相隔距离达103公里的两个ESS系统中指定的逻辑卷。这一距离可以通过第三方提供的通道扩展器加以延长,ESS可以为所有连接的主机支持PPRC功能。
PPRC将确保如果备份卷不能被更新,那么即使源卷更新成功,整个写操作也会返回失败---保证源卷和目的卷的数据彻底一致。同步方式可以保证数据不会丢失,更重要的是数据的一致性在这种方式下能够得到很好的保证---数据的不一致意味着相关数据的丢失,此时数据库的数据安全机制无法保证数据的安全,严重时有可能造成数据库无法启动。
PPRC的同步实现机制如下图所示:
- 16 -
中小银行信息中心数据整合与容灾 分析报告
PPRC同步工作过程为:
1、应用程序将数据写入磁盘--在生产系统中的应用程序将数据写到生产系统的磁盘。
2、生产系统中的磁盘数据传输到备份磁盘--对每一个在生产系统的写操作都要将这个写操作送到备份磁盘。
3、备份机磁盘数据复制--备份磁盘复制生产系统的数据。
4、将写完的操作信息返给生产磁盘--当生产系统收到备份系统传回的已写信息之后,生产机的磁盘系统通知主机该写操作已完毕,在此之后生产系统的应用将继续执行。在同步PPRC的建立过程中,卷具有不同的状态,以保证数据的完整性。
3.3.2 IBM异步复制技术
IBM PPRC磁盘级数据复制功能包括异步的 Global Mirror方式,即全球镜像模式(PPRC - Global Mirror),它采用异步方式工作,并且采用一些机制保证数据一致性,解决了数据保护/距离/性能之间的矛盾。
- 17 -
中小银行信息中心数据整合与容灾 分析报告
兰州商行中心西宁商行中心A盘B盘C盘D盘本地核心存储异地灾备存储
1、异步PPRC(Global Mirror)的技术环节如图(其中绿色为生产站点磁盘 2、绿色(A盘)和橙色磁盘(B盘)之间进行PPRC-XD异步操作 3、绿色磁盘(A盘)组根据预先设置的时间,生成“一致性组”(Consistency Group),并记录状态 4、采用PPRC-XD异步操作方式,将且只将“一致性组”记录下来的数据传递从绿色磁盘组传递到橙色磁盘组 5、完成后,立刻将橙色磁盘组数据FlashCopy到蓝色磁盘组(C盘),进行一致性数据保留 6、完成后,回到步骤1 一旦出现灾难,丢失的是两次生成“一致性组”间隔之间的数据。采用PPRC的IBM存储能够按分钟级别生成一次“一致性组”,意味着如采用异步方式,有 - 18 - 中小银行信息中心数据整合与容灾 分析报告 可能丢失的数据按分钟级计算。一般的异步方式,客户会丢失几个小时以上的数据,并且操作十分繁琐。 所以对于IBM的实时灾备方案设计来说,首先需要A、B、C三个卷,即PPRC-XD A->B , FlashCopy B->C,但全球镜象在对A卷进行保护时, B卷和C卷都是不能被服务器访问的。因此,应考虑同时使用一个D卷(测试卷)。D卷是不同于B卷和C卷的另外一个卷,类似C卷,是具有数据一致性的快照卷。用于平时进行容灾测试、复制质量测试、备份、数据挖掘和应用测试等。 因此为方便验证和测试,我们需要规划A、B、C、D四个卷,即需要考虑设计灾备存储容量为本地核心存储容量3倍。 3.4 HDS存储的实时数据复制 3.4.1 HDS同步数据复制技术 HDS TrueCopy/Sync数据同步复制容灾解决方案是HDS公司在全面分析各种操作系统、各种容灾技术、仔细研究客户对容灾的需求和理念之后,结合HDS 高端智能磁盘存储系统的特点推出的数据同步复制容灾解决方案;彻底解决长期困绕用户的、难于进行容灾方案的真实演练、真实数据测试的问题,最大限度的减少数据丢失问题;TrueCopy/Sync是基于磁盘存储系统运行的软件包,不依赖任何的主机操作系统和其他第三方厂商软件,为用户提供了最安全、最开放、最经济、最实用的远程容灾解决方案。 在使用TrueCopy/Sync同步数据复制软件进行数据复制时,备份端的数据拷贝与生产端的数据拷贝或生产数据永远保持一致,备份端拷贝永远是生产端数据盘的“镜像”。此时作为备份磁盘存储系统总是与生产磁盘存储系统数据同步,生产端磁盘存储系统与备份端磁盘存储系统同步进行相同的I/O更新,备份端磁盘存储系统在更新时总是与生产端磁盘存储系统保持完全一致的顺序,以保证数据的一致性和完整性。当生产系统发生灾难时,不会出现数据丢失。 - 19 - 中小银行信息中心数据整合与容灾 分析报告 图:HDS TrueCopy/Sync复制技术 TrueCopy/Sync的最大一个优势在于不依赖于主机系统、文件系统、数据库系统,只是基于磁盘存储系统的工作机制,利用磁盘存储系统控制器的控制台来启动、监控、控制远程数据备份的操作。节省主机系统的CPU资源,为提供用户开放的高可用性。 3.4.2 HDS异步复制技术 解决由于远程同步镜像方式给生产应用系统性能造成的巨大冲击和系统的压力,解决异地长距离的场地部署问题,以异步方式实现可靠的、经济的、可实施的容灾解决方案 在TrueCopy的远程容灾异步方式下,通过时间戳、分组号可以保证数据的一致性和完整性,并在灾难发生时的数据丢失最少,恢复时间短,极大的提升了用户的投资回报率。而其它厂商的远程容灾异步方式为了完全保证数据的一致性和完整性,需要额外的投资(更多的磁盘盘组或更高的CPU)才能实现。 在异步方式下,生产系统所发出的I/O操作至本地存储系统,本地存储系统处理结束后即通知主机本次I/O结束。然后,本地生产存储系统将多个累计的写I/O异步(几乎实时发送)的,不一定按顺序的传送到备份中心的存储系统中,因此在异步方式下,对应用系统的性能没有任何影响 由于I/O操作不是同步的传送到备份中心,在异步方式下,就存在数据的传送顺序与实际的数据的操作顺序不一致问题。为了解决这一问题,HDS容灾软件对每个写入生产中心存储系统的I/O都打上一个时间戳(TimeStamp)并进行一 - 20 - 中小银行信息中心数据整合与容灾 分析报告 致性分组(Consistency Group), 在数据传输至备份中心时,备份中心存储系统严格按照此时间戳的时间顺序重新排列并写入相应的逻辑卷中,从而保证了备份数据的逻辑一致性与完整性。目前,HDS的TrueCopy软件其独有的时间戳(Timestamp)和一致性组(Consistency Group)技术,是目前存储业界唯一可行且安全的存储系统之间的异步数据备份方案并被广大用户采用 由于数据异步远程更新,应用程序不必等待远程更新的完成,因此远程数据备份的性能的影响通常较小,并且备份磁盘的距离和生产磁盘间的距离理论上没有。只有在当传送中的数据在生产磁盘控制器或在TCA中还没有形成数据一致组时生产中心发生灾难,这些“in-flight”的数据就会丢失。但TrueCopy通过“consistency group”技术保证灾难发生时已经发送到备份中心的数据将保持一致性,因此在系统和应用程序重新启动之前,需要恢复那些“in-flight”丢失的数据。所花费的时间和造成的影响取决于客户的环境,例如应用程序和设备配置的复杂性,更新的完整性等等。 时间戳、顺序号、一致性组可用做系统恢复在远端存储模拟生产端存储的相同I/O顺序,保证数据一致性灾难发生时当前远程镜像备份可用做系统恢复基于I/O的数据复制单元,“实时‘远程数据复制,最少的数据丢失 HDS支持的容灾通信链路协议为:Fibre Channel、ESCON、DWDM、ATM、E1/E3、IP、SONET等。如果采用ESCON通道直连方式,最大的距离可以为43公里,如果采用光纤通道直连,最大距离为10公里(长波单模光纤),如果采用DWDM,最大的距离可以达到100公里(上述通信链路可以运行在同步方式)。如果在ATM、 - 21 - 中小银行信息中心数据整合与容灾 分析报告 E1/E3或IP链路下,采用异步方式,理论上可以达到无限距离。 3.4.3 HDS通用复制(UR)软件技术 HDS 通用复制软件Universal Replicator,是基于HDS最新一代的通用存储平台实现的异步远程数据复制软件。通过HDS通用存储平台的虚拟化功能,HDS通用复制软件可以实现同构或异构存储系统之间的远程数据复制功能。 HDS通用复制软件采用基于磁盘日志文件的技术,可以保证远程数据的一致性和完整性,同时,极大的降低了存储系统CACHE和通信链路带宽的需求。它是对HDS原有的异步远程复制软件的补充。 HDS通用复制软件的原理如下图所示: 图:HDS Universal Replicator超远程数据复制软件 磁盘日志卷 HDS UR超远程数据复制软件利用“磁盘日志卷”进行待传数据的实时转发,节省生产系统存储Cache资源 当服务器端发出一个写操作时,写I/O按照写发生的顺序保存在主存储系统的日志卷(JNL)中,远端的存储系统通过发出读日志命令从主存储系统的日志卷(JNL)中读取记录并将其写到本地的日志卷(JNL)中,然后将该记录更新到本地的数据卷中。 上述过程是实时进行的,相比起其他厂家的以30秒钟为周期的异步复制技术,具有更理想的“RPO”指标。同时,无论线路带宽如何变化, UR超远程数据复制软件能够自动的调整传输策略,充分使用线路的带宽资源。 - 22 - 中小银行信息中心数据整合与容灾 分析报告 HDS UR超远程数据复制软件也节省了通信链路的带宽需求,在传统的数据远程复制环境下,通信链路的带宽需求不够,则数据会累积在存储系统的CACHE中,当CACHE资源不够时,远程数据复制过程中断。采用基于磁盘日志方式的 UR超远程数据复制软件,可以利用磁盘日志文件缓冲对带宽的瞬时高需求,从而可以避免由于瞬间的高带宽需求造成的远程数据复制的挂起。 Reduced Cache utilizationPull from Secondary SiteReduce Band width costsTime 图:HDS UR对Cache和带宽的要求降低 吸收式复制技术 HDS UR超远程数据复制软件利用“吸收式复制技术”进行数据复制,提升生产系统的存储工作性能。 HDS通用复制软件引入了pull(拉)机制实现数据的复制,使用这种技术,主存储系统不需要特定的资源将数据推(Push)到远程存储系统中,而是远程存储系统到本地存储系统来读日志卷。这样就解除了主存储系统用于数据远程复制的资源消耗,使得主存储系统的资源100%的服务于生产系统,从而提高了存储系统的性能。 数据一致性保证 通过 “顺序号”、“一致性组”技术,HDS UR超远程数据复制软件保证异步模式的数据一致性。 HDS UR超远程数据复制软件也有效的解决了在数据复制过程中的重新同步过程中的数据不一致性问题。在传统的数据复制方式下,当数据链路的原因造 - 23 - 中小银行信息中心数据整合与容灾 分析报告 成数据不能够复制,数据远程复制自动挂起,同时对生产端存储系统的数据更新保存在存储系统的Bitmap表中,当链路恢复后,存储系统根据Bitmap表中的记录信息将更新过的磁道复制到备份端的存储系统,而在这个过程中备份端的存储系统的数据一致性是不能保证的,这就是数据复制的重新同步问题。由于HDS通用数据复制软件采用基于磁盘日志的工作方式,当数据链路断开后,对数据的更新仍然按顺序保存在磁盘日志中,这样,当链路恢复后,HDS的 UR超远程数据复制软件仍然到生产端存储系统的日志文件中读取数据更新记录,这样就解决了数据的重新同步问题。 解决通信线路故障修复后的数据“再同步”问题 HDS UR超远程数据复制软件也有效的解决了在数据复制过程中的重新同步过程中的数据不一致性问题。在传统的数据复制方式下,当数据链路的原因造成数据不能够复制,数据远程复制自动挂起,同时对生产端存储系统的数据更新保存在存储系统的Bitmap表中,当链路恢复后,存储系统根据Bitmap表中的记录信息将更新过的磁道复制到备份端的存储系统,而在这个过程中备份端的存储系统的数据一致性是不能保证的,这就是数据复制的重新同步问题。一般的异步复制解决方案,为了解决“再同步”过程中的数据不一致,会要求在灾备系统留出额外的一份“Golden Copy”(完整数据快照)空间,在“再同步”之前首先进行一个快照,以保证数据的一致性。这种方式,即浪费存储资源,又增加了额外的系统管理难度。 由于HDS通用数据复制软件采用基于磁盘日志的工作方式,当数据链路断开后,对数据的更新仍然按顺序保存在磁盘日志中,这样,当链路恢复后,HDS的 UR超远程数据复制软件仍然到生产端存储系统的日志文件中读取数据更新记录,这样就解决了数据的重新同步问题,无需额外的“Golden Copy”。 基于存储系统实现的数据远程复制技术的比较 功能/产品 其他异步复制技术 HDS UR超远程数据复制软件 生产系统CACHE占用高 低 率 链路故障管理 破坏式bitmap,重新同步 按顺序写入,日志文件 RPO控制 30秒同步一次 实时同步 对主存储系统性能的影高(由生产系统执行复制逻辑) 低(由灾备系统执行复制逻辑) - 24 - 中小银行信息中心数据整合与容灾 分析报告 响 所支持的平台 本厂商的存储 HDS以及其它厂商的异构存储 3.5 各产品异步复制技术的分析 通过下表,可以清楚的分析各厂商存储数据复制机制和特点,其中HP、SUN的高端为OEM HDS存储,所以合并在一起: HDS、HP、SUN 异IBM PPRC-XD 步复制 EMC SDRF/A 复制机制 实时数据复制 间断性、批量数据复间断性、批量数据制 复制 磁道 时间点拷贝 数据变化集 可以 复制单元 数据一致性 I/O 保证 灾难发生,备份可以 可用? 复制实时性 数据丢失 实时 不能,通过快照卷 可以 阶段性 最少30秒间隔 约60秒 小于5秒(线路畅通) 分钟级 综合分析,HDS、HP、SUN的基于I/O的数据复制应能得到更小的RPO,同时,其基于磁盘日志卷的UR支持超远距离的数据复制,大大放宽了对带宽的要求。 当然,每种产品都具有自身特色,需要我们更深入的研究分析。 - 25 - 中小银行信息中心数据整合与容灾 分析报告 第4章 整体方案与数据整合 4.1 整体建设步骤 目前的中小银行核心业务信息系统基本都运行了多年,其系统结构多为2台主数据库服务器加一个共享磁盘阵列,一般情况是,主机已经扩充过或基本满足要求,而磁盘阵列因牵涉数据移植等问题一直未能优化或更新。 磁盘阵列在建设时归为数据库服务器的附属,老化严重,存放在其上的数据面临随时损失的巨大风险。而且,随着业务和数据量的膨胀式发展,数据的核心磁盘阵列的性能和容量很难满足现在和将来的扩充需求,因此,建立存储、整合数据,来保证以数据为核心的业务系统已成为系统发展的必经之路。 同时,银行业的灾备建设迫在眉睫,而各中小银行在未能整合本地数据、改变存储条件的情况下,根本无法实现更高级别的异地数据灾备。一个低端的磁盘阵列根本无法满足系统基于硬件级别的灾备要求。 针对目前中小银行的现状,我们建议先本地、再异地的建设步骤: 第一步:生产中心存储与数据整合 SAN建设,数据迁移 实施存储与数据整合 实现LAN-Free备份和数据快照的本地备份 第二步:构建可靠的容灾系统 关键应用异地容灾保护 异步方式远程数据复制,尽量减少对生产系统性能的冲击 第三步:实现应用级别灾备接管 配合主机实现应用级系统切换 灾备中心可靠切换,最少的数据丢失,最短的时间恢复业务 三中心架构 充分利用容灾中心的主机资源、存储资源 - 26 - 中小银行信息中心数据整合与容灾 分析报告 4.2 本地中心数据整合 以数据为核心,加强对数据的高质量的管理是当前各中小银行面临的重要课题。数据的高质量管理包括合理存储数据、快速查询数据、安全备份数据、灾难恢复数据等诸多内容。目前大多数信息系统尚未建立科学的数据管理体系,多为手工备份、分散管理、无灾难恢复能力。长此下去,数据科学管理、有效地应用及安全问题成为诸多隐患,阻碍了业务的发展,急需借助科学、有效、全面、系统的数据存储解决方案改进现有的传统的数据管理模式。 对老系统的整合,首先是数据的整合,只有将各应用系统的传统数据成功地集中在一起,才能保障应用的进行。数据的整合、集中要从存储系统整合开始,要充分保证数据的安全、完整、快速被应用系统调用,又能保障高度的扩展性、数据的共享和相互利用,采用新的存储技术和产品改造传统架构是数据集中的首要工作。 4.2.1 本地中心建设原则 扩展性要求 应用系统不但要求为前端应用主机提供大量数据的访问,同时要提供多用户的并行访问。因此,在建设存储系统时,应首要考虑的问题就是存储系统的扩展性。在此扩展性包括两方面的含义: 存储容量的扩展 存储系统性能的扩展 存储数据量大,而且增长速度快。这就要求在建立存储系统时,要选用先进的存储网络结构,并选用模块化、易扩展的存储设备,以适应应用系统对存储系统容量扩展的要求。 此外,随着业务系统的增加,服务器数量的加大,存储数据量不断增长,这样势必会增加整个应用系统的访问量。为适应应用系统这一变化,给使用者提供一个快速的访问查询,除改进原有的网络系统及应用系统外,还需要将存储系统进一步升级。所以,存储系统应能满足系统性能扩展性要求。 安全性要求 - 27 - 中小银行信息中心数据整合与容灾 分析报告 海量的数字化信息是系统中最为宝贵的信息资源,需要建立非常安全的存储系统,并设计完善的备份恢复系统,以确保数据不会丢失。作为重要的应用系统,是否能够为用户提供7×24小时的连续访问,也是服务质量高低的重要指标。目前,系统已建立起冗余的IP网络和应用服务器系统,在建设存储系统时,要选用高安全性的存储设备,以支撑整个的应用系统。 高性能要求 整个应用系统由多个子系统组成,通过提高各子系统的性能,可提高应用系统的整体处理性能。由于系统中所有的重要数据均保存在海量的存储系统中,每次的访问请求均要通过存储系统来读写数据,因此,海量存储系统要为应用系统提供高性能的数据访问支撑。 易管理性要求 目前,对于许多客户来说,都面临着一个重要问题——降低维护成本。用户应用系统较为分布,且各系统内部较为复杂,需要有专门的维护人员进行维护,大大增加了系统的维护成本。有的用户用于系统维护的成本甚至几倍于系统软硬件的投资成本,如何降低系统维护成本(总体拥有成本TCO),成为用户迫切解决的问题。 对于系统同样面临此问题,因此在建立存储系统之初,就要考虑采用先进的技术,尽量降低维护成本。主要依据以下三个原则: 系统的集中管理 图形化简易管理 自动化的管理方式 - 28 - 中小银行信息中心数据整合与容灾 分析报告 采用先进的存储网络结构,实现数据的集中存储,便于存储设备的集中管理维护,以及数据的集中保护。同时,在选择存储设备时,要求存储设备管理简便,能提供图形化管理界面,方便维护人员维护操作。 选用先进、成熟的存储管理软件也是必不可少的。根据系统的实际应用需求,制定相应的备份恢复策略,实现数据的自动备份,减少维护人员手工操作。 投资保护要求 存储系统在建设之初,要充分考虑到不但要考虑对原有设备投资加以保护,同时还要对新建系统的投资保护加以分析。例如,新建存储系统应具有很高的扩展性,且具有很好的开放性。这样可以使新建存储系统可随着用户应用需求的改变而改变,不会造成系统投资的浪费。 同时,可以根据应用系统特点,制定合理的存储解决方案,提高系统利用率,降低用户投资成本。 4.2.2 本地中心存储建设 本地中心的数据整合考虑的是采用更高性能、具有扩展功能和先进技术的存储系统替换原有磁盘系统,同时,整合不能影响业务系统运行,切换到新存储系统应在1个晚间完成。整合过程需要考虑: 新存储系统对主机系统和应用软件的适用性; 构建新SAN存储网络(如没有); - 29 - 中小银行信息中心数据整合与容灾 分析报告 存储升级的数据迁移、数据整合、数据布局 原有设备的利旧 整个数据中心存储系统应分为三个层次,主机层、网络层和存储层。 主机层: 在中小银行的业务系统中,主机主要进行信息处理和数据库运行,在主机端安装HBA卡用于建立数据访问通道。由于主业务系统是典型的OLTP应用,所以应用对数据访问性能的要求非常高,为了满足这一要求,建议在主机端安装多块HBA卡,提供多条数据通道,通过数据通道管理提供多通道之间的流量负载均衡,确保高性能的数据访问。另一方面,对于金融系统这样关键的系统,链路的安全性需要得到保证,HDLM同样可以提供数据通道之间的失败切换功能。 网络层: SAN网络中网络层是非常关键的一个部分,它负责将主机和存储系统连接在一起,并且提供一个高灵活性、高扩展性的环境,以适应业务系统不断发展带来的主机和存储系统的扩展。 在SAN网络设计中,一般采用冗余的网络设计,即至少配置2台SAN光纤 - 30 - 中小银行信息中心数据整合与容灾 分析报告 通道交换机,为主机和存储系统提供冗余的连接路径。同时为异地的容灾方案设计打下基础。 存储层: 数据整合的核心是存储层,而存储层或者说整个SAN网络存储系统的核心设备是磁盘阵列,在数据中心存储系统中,尤其是中小银行需要升级和整合的存储系统,一般建议采用高端的的磁盘阵列系统,具有出色的可靠性、可用性。 4.2.3 数据的迁移 对于本地中心的存储升级或更换,要考虑的一个重要环节是数据迁移。 商行存储升级数据迁移的拓扑图如下: 升级存储的数据迁移建议总体上可以分为三步: 1、首先构架新的主机系统和SAN环境,并连接新的存储设备,进行合理配置,划分应用空间; - 31 - 中小银行信息中心数据整合与容灾 分析报告 2、其次,在保留原存储使用即业务不中断的前提下,在新的数据存储中建立应用环境,测试无误后,进行数据迁移并切换存储(应在一个晚间8小时内); 3、将原系统存储移除,作为其它系统使用。 备注:如没有新的主机搭建新环境,可以考虑采用原备份主机连接新存储建立新的数据库。 对于数据的移植,我们有更详细的方案,保证数据的完整和可靠性,这里不作描述。 - 32 - 中小银行信息中心数据整合与容灾 分析报告 第5章 容灾中心建设 数据的整合、业务的集中无疑使业务系统的电子化建设和业务管理进步了一个层次,但同时增加了系统的危险系数。由于地震、火灾、飓风、洪水、爆炸、停电、系统崩溃、网络故障、人为失误等各种灾难时有发生,许多IT用户都意识到潜在的威胁会影响到其业务的生存发展。一次长时间的故障不仅引起业务的损失,而且会带来巨大的经济损失、法律诉讼等更严重的问题。计算机系统无疑成为今天和未来企业的生命支柱之一,数据是企业财富的代表。因此,一个良好的系统与数据备援方案的规划与实施,将缩短IT系统的恢复时间,让关键业务的运行间断很少甚至没有间断,从而极大降低外部灾难所带来的影响与损失。 5.1 容灾系统概述 商行农信目前的信息中心建设情况按地区、规模差别很大,可选择的灾备线路和模式不尽相同,需要根据不同的线路情况、灾备中心的选址(主要是距离)设计不同的灾备方案,见下表: 容灾中心部署 定时备份 -备份软件+磁带库 实时容灾 -基于磁盘 同城或异地 同城或同机房 直连光纤 或电信裸光纤 电信光纤或IP异步推 (较近距离,网络(网速满足突发业务要求) 如200KM以内) 异地 IP网络 异步拉 同步推 同步方式 基本无数据丢失 异步方式 少量数据丢失 任意地点 容灾链路 容灾技术 数据保护程度(PRO) 最低链路要求 TSM、Veritas等 小时级别 异步方式 (超远距离) (网速满足平(基于磁盘日志少量数据丢失 均业务要求) 卷) 当然,所有方案都是以实施异地灾备系统为基础,采用基于存储系统的远程数据复制技术,提供高效的、简单的、完全的数据保护和系统恢复能力。 - 33 - 中小银行信息中心数据整合与容灾 分析报告 5.2 灾备的通讯线路选择 当前业界远程数据容灾的通讯链路基本采用如下的几种方式,每种方式各有利弊,可以根据需要复制的数据量、业务高峰值、备份中心的距离、用户的系统恢复要求确定通讯链路。 5.2.1 通过裸光纤直连交换机,采用FC协议 生产中心与备份中心的光纤交换机通过裸光纤直连,两个中心存储系统的数据复制端口通过光纤交换机和裸光纤进行连接,可以保证异步数据复制的性能。如果用户希望当生产中心的存储系统故障或数据被破坏原因,生产中心主机可以接管备份中心的数据;由于生产中心有多台业务主机,I/O访问很大,如果裸光纤的数量如果低于生产中心主机的通道数量,将会造成I/O 瓶颈,而且FC协议的距离是理论上最大10公里,有传输时延。当生产主机接管备份中心数据的时候,生产主机需要Un-mount原生产中心磁盘,重新mount备份中心磁盘。此方式裸光纤的数量要求较多,线路租费比较高,但由于采用多链路传输,可靠性比较高。 - 34 - 中小银行信息中心数据整合与容灾 分析报告 5.2.2 通过DWDM设备直连裸光纤 采用密集波分技术,可以加载多协议,例如FC协议、IP协议,两个DWDM终端之间的距离可以延伸到100公里,解决了FC通道有效传输距离10公里的。生产中心的2台光纤交换机通过4条光纤FC端口连接到DWDM终端,租用电信的裸光纤一条,那么通过DWDM技术,可以将多路FC通道和IP网络复用在一条裸光纤上,比较好的解决了裸光纤的利用率和多协议复用的问题。生产主机接管备份中心的方式与工作流程与上述FC直连方式一样。但此方案整体投资比较大,DWDM设备投资较高,一般适用于光纤资源比较紧张的情况。 - 35 - 中小银行信息中心数据整合与容灾 分析报告 5.2.3 利用IP网络,采用ATM或E1、E3线路,通过FC/IP转换器 将FC加载在IP网络中传输。此方案采用国际流行的IP网络协议和链路,通过FC/IP转换设备(例如Nishan),将FC通道协议打包在IP数据包内,通过IP链路传输,理论上没有距离的,适用于远程异步数据复制,是性能价格比很好的选择,具体的带宽要根据业务量峰值、距离、应用系统高峰时的写I/O的数量、写I/O块的大小、应用系统所能承受的响应时间的延迟、生产与备份中心之间的距离来计算。 - 36 - 中小银行信息中心数据整合与容灾 分析报告 各种种通信链路所提供的带宽 理论带宽 线路类型 (Mbps) T1 1.4 T3 45 100bT 100 OC3 155 OC12 622 千兆以太网 1000 OC48 2488 OC192 9953 实际带宽 (去掉overhead后)(Mbps) 1.08 31.31 70.00 108.50 435.40 200.00 1741.60 6967.10 备份1TB 所需时间 85天 71小时 31.7小时 20.4小时 5.1小时 3.1小时 1.2小时 19分钟 需要注意的是,由于每个用户的环境差异和地区的条件差异有很大不同,客户的要求也十分复杂。一般在灾备项目实施的分析规划阶段,详细的符合特定需求的带宽解决方案才能完备。并且,在今后的维护和运行过程中,需要不断的调整以提供最佳的性能价格比和适应更多的应用需求。 另外,在任何灾备项目签署开始之前,可以根据需要提供XXXX公司专门 - 37 - 中小银行信息中心数据整合与容灾 分析报告 的风险分析服务和灾备项目咨询服务。在由经验丰富的专家完成的可交付物中,会有全面的,符合当前用户的分析报告,以便用户能够更加有确定性的、有事实依据缩小解决方案的决策范围。 5.3 定时备份的容灾方案 本节以TSM为例所阐述的定时备份容灾解决方案,是灾难恢复方案的7个级别中的第1-4个级别。 XXXX公司TSM备份管理和灾难恢复系统设计主要是利用TSM存储管理软件作为灾难恢复系统的基石,构建灾难恢复系统,相对于其他的灾难备份系统具有以下独特的优势: 成本低,通过存储管理实现灾难恢复,可以充分利用企业现有的存储设 备,减少了企业在设备上的投资。 风险低,由于这种灾难恢复系统可以分步实施,每一步都有明确的目标, 对于客户来说,这都是可控的。 操作简单,对技术人员要求低,许多的步骤都可以自动执行,即使遇到 意外的特殊情况,由于系统操作人员一般都熟悉存储管理软件的基本操作和原理,可以第一时间得到及时的处理。 拓朴结构示意图 - 38 - 中小银行信息中心数据整合与容灾 分析报告 XXXX公司建议的定时备份构架设计应建立在用户原有系统结构基础上,同时考虑备份管理服务器、磁带库等因素: TSM服务器:考虑到本项目中需管理的环境较复杂,所以我们建议在计算中心设置专门一台服务器作为Tivoli Storage Manager备份管理(以下简称TSM)服务器,专门伺职备份管理。根据目前商行运行环境的具体情况建议选择PC服务器作为TSM服务器。 异地备份中心备份管理服务器:如果考虑到本项目中需同时通过TSM建立异地灾备,所以我们建议在异地备份中心设置专门一台服务器作为Tivoli Storage Manager备份管理并安装服务器端软件构成2地TSM服务器的通讯和数据传送。 磁带库:根据用户环境下当前的数据量以及数据的增量建议,生产中心采用合适的磁带库作为本地备份;异地中心同样使用磁带库。 Client:生产系统的主机都需要安装客户端。 - 39 - 中小银行信息中心数据整合与容灾 分析报告 网络设备: TSM Client与TSM服务器之间的网络数据传输的速度与数 据备份和恢复的速度密切相关,同时异地灾备数据的传输更需要网络的支持.因此拥有高速的网络接入设备是数据高速,稳定传输的保障.此外为保证异地备份和恢复操作的稳定和高效运行.本地和异地的通讯应畅通并拥有较大的带宽。 5.4 实时复制的容灾方案 5.4.1 同步实时复制的容灾 实现数据的完全同步,即灾备数据无丢失,是中小银行容灾建设的目标,遗憾的是,这样的技术受应用系统I/O读写的活动频率、网络带宽、可以容忍的交易响应时间和其他因素的影响,远程同步工作方式有距离的,如果采用ESCON通道直连方式,最大的距离可以为43公里,如果采用光纤通道直连,最大距离为10公里(长波单模光纤),如果采用DWDM,最大的距离可以达到100公里。如下图: 同步方式分析 - 40 - 中小银行信息中心数据整合与容灾 分析报告 同步方式下:由于远端的数据拷贝与本地的数据拷贝或生产数据永远保持一致,远端拷贝永远是本地数据盘的“镜像”,因此备份存储系统总是与生产存储系统数据同步,本地存储系统与备份端存储系统同步进行相同的I/O更新,备份端存储系统在更新时总是与生产端存储系统保持完全一致的顺序,以保证数据的一致性和完整性。当生产中心发生灾难时,不会出现数据丢失。 同步方式下:任何厂商的同步处理方式对应用系统的响应时间都会有冲击。在进行远程数据备份时,生产主机的应用程序系统发出写I /O指令,生产中心的存储系统同时向本地磁盘和备份端的存储系统发出写操作的指令,必须等候备份端存储系统回复写操作完成以后,生产中心的存储系统才向主机应用程序回复I/O完成,因此主机应用程序每次I/O将承受备份端存储系统I/O确认的延迟,以及由此带来的主机系统处理能力降低和资源消耗的冲击。 下图是某个用户的实际同步案例,所有的写I/O经过远程数据复制后,响应时间增加了2倍多,由于应用系统I/O的复杂性,对用户应用系统的平均响应时间冲击增大了21%。 图:同步远程数据复制对系统的影响 受应用系统I/O读写的活动频率、网络带宽、可以容忍的交易响应时间 和其他因素的影响,远程同步工作方式有距离的,一般小于30公里(理论上100公里) 高带宽要求,因为是同步数据复制,因此传输链路的带宽需要用I/O峰 值计算 - 41 - 中小银行信息中心数据整合与容灾 分析报告 备份中心存储处理能力要求足够好,要保持cache、磁盘数量、数据写 入磁盘的性能等,否则会连累生产端,导致生产端系统宕机 5.5 异步实时复制的容灾方案 异步方式可以解决由于远程同步镜像方式给生产应用系统性能造成的巨大冲击和系统的压力,解决异地长距离的场地部署问题,以异步方式实现可靠的、经济的、可实施的容灾解决方案。这也是我们重点推荐的容灾方案: 异步方式分析 在TrueCopy的远程容灾异步方式下,通过时间戳、分组号可以保证数据的一致性和完整性,并在灾难发生时的数据丢失最少,恢复时间短,极大的提升了用户的投资回报率。而其它厂商的远程容灾异步方式为了完全保证数据的一致性和完整性,需要额外的投资(更多的磁盘盘组或更高的CPU)才能实现。 在异步方式下,生产系统所发出的I/O操作至本地存储系统,本地存储系统 - 42 - 中小银行信息中心数据整合与容灾 分析报告 处理结束后即通知主机本次I/O结束。然后,本地生产存储系统将多个累计的写I/O异步(几乎实时发送)的,不一定按顺序的传送到备份中心的存储系统中,因此在异步方式下,对应用系统的性能没有任何影响 由于I/O操作不是同步的传送到备份中心,在异步方式下,就存在数据的传送顺序与实际的数据的操作顺序不一致问题。为了解决这一问题,HDS容灾软件对每个写入生产中心存储系统的I/O都打上一个时间戳(TimeStamp)并进行一致性分组(Consistency Group), 在数据传输至备份中心时,备份中心存储系统严格按照此时间戳的时间顺序重新排列并写入相应的逻辑卷中,从而保证了备份数据的逻辑一致性与完整性。目前,HDS的TrueCopy软件其独有的时间戳(Timestamp)和一致性组(Consistency Group)技术,是目前存储业界唯一可行且安全的存储系统之间的异步数据备份方案并被广大用户采用 由于数据异步远程更新,应用程序不必等待远程更新的完成,因此远程数据备份的性能的影响通常较小,并且备份磁盘的距离和生产磁盘间的距离理论上没有。只有在当传送中的数据在生产磁盘控制器或在TCA中还没有形成数据一致组时生产中心发生灾难,这些“in-flight”的数据就会丢失。但TrueCopy通过“consistency group”技术保证灾难发生时已经发送到备份中心的数据将保持一致性,因此在系统和应用程序重新启动之前,需要恢复那些“in-flight”丢失的数据。所花费的时间和造成的影响取决于客户的环境,例如应用程序和设备配置的复杂性,更新的完整性等等。 如果在ATM、E1/E3或IP链路下,采用异步方式,理论上可以达到无限距离。 5.5.1 同异步技术的分析建议 由于采用同步数据复制方式,生产主机会遭受I/O响应时间的惩罚,距离也有,对通讯链路的要求也比较高,因此重点建议用户采用异步数据复制方式,值得一提的是,HDS、HP的异步方式采用实时的基于I/O的数据复制机制,可以保证备份中心最小限度的数据丢失,最大的贴近用户容灾的目标,保证数据的完整性和一致性,非常具有特色。 - 43 - 中小银行信息中心数据整合与容灾 分析报告 5.6 基于应用的系统容灾 5.6.1 基于应用的容灾要素 在数据复制的基础上,可以建立应用级别的容灾发生后的容灾中心接管。而设计应用级别的系统容灾,需要考虑以下方面: 1、容灾中心服务器 技术上,应用级别的系统容灾,存储和主机都要统一考虑,容灾中心需要接管应用系统的数据库/应用服务器,而主机配置可以采用2种选择: 主中心主机不变,备份中心主机选择稍低配置的服务器; 更换主中心的主机为高端服务器,原中心服务器更换到备份中心 2、数据丢失和追帐 XXXX公司建议的数据复制为异步方式,其采用实时的基于I/O的数据复制机制,可以保证备份中心最小限度的数据丢失,最大的贴近用户容灾的目标,保证数据的完整性和一致性。 当然,在特定灾难发生时,不可避免的会有少量数据丢失。应用系统接管以前,需要追帐使数据恢复到完全一致的状态,才能启动应用。 3、应用系统的接管 对于兰州商行的系统容灾,我们不建议考虑完全自动的应用系统切换到容灾中心,因为: 一方面,异步方式可能有数据丢失,接管前要追帐,即使采用了同步方 式,也需要在系统接管前,验证容灾中心数据的完整性、可用性,否则可能产生意想不到的更大事故; 生产中心可能产生一些抖动,如断电、网络故障,服务器暂时故障,有 些可以在短时间解决的问题完全不必要自动切换到容灾中心,因为切换到容灾中心后还需要切换回生产中心,数据在整个自动切换的过程中经受考验,因此,国内包括五大行在内的HDS存储使用者都没有采用这 - 44 - 中小银行信息中心数据整合与容灾 分析报告 中方式。 XXXX公司建议,应用的容灾接管应该由人来决策,其更重要的是设计灾难发生时的切换与恢复流程,最大缩短接管的时间。 5.6.2 容灾的切换与恢复流程 1、从生产中心切换至灾难恢复中心主机的实现 当发生生产中心故障时,业务将会切换到灾难中心去,应按以下步骤处理: 由灾难中心主管确认灾难的确发生; 在灾难中心主机作断点分析,查明交易情况; 如有数据丢失,进行追帐; 完成网络物理切换; 首先要保证网点与本地生产中心和容灾中心网络同时连通; 根据网络配置情况,当本地生产中心灾难发生后需要修改所有网点应用 配置文件中绑定的服务器IP地址使其可以与容灾中心主机通讯; 检查容灾中心数据完整和一致性,启动应用系统到正常状态; 主机系统重新与网点连线,完成灾难中心切换任务。 2、从灾难中心回切生产中心生产主机的实现 当本地生产中心恢复后,则应将业务切回本地生产机并回复原来的备份模式,步骤如下: 暂停业务(或在业务闲时); 同步灾难恢复中心与生产中心数据.状态表(BITMap)透过网络达成 同步,而数据可视数据量的多寡选择网络或磁带; 检查生产中心数据情况; 完成网络物理回切; - 45 - 中小银行信息中心数据整合与容灾 分析报告 根据网络配置情况,此时可能需要修改所有网点应用配置文件中绑定的 服务器IP地址使其可以与本地生产中心主机通讯; 启动生产中心主机应用系统; 主机系统重新与网点连线,完成回切任务; 生产机继续业务,继续备份数据至灾难恢复中心; 3、灾难发生时网络切换至灾难恢复中心的实现 灾难恢复方案除了灾难恢复中心主机能接管生产中心主机外,另一项必须考虑的是网络的切换,以及客户机的再连线. XXXX容灾方案主要提供非常有效率的数据复制,但不能达到IP地址切换.(这是TCP/IP本身的,因为当IP跨越广域网络时,必须设定成不同网段Subnet)所以当灾难恢复中心主机接管生产中心主机的业务时,IP地址并不一样.网点的客户机若想与灾难恢复中心主 机建立连接,必须作以下方面的考虑: 由于生产中心与灾难备份中心分属于同一个广域网上的不同网段,故各客户端的中心路由器的配制中应支持对上述两个中心的同时访问能力 , 以保证客户机在灾难发生后仍能与灾难备份中心建立TCP/IP连接。 5.7 未来的扩展:三数据中心 由于线路和距离的原因,我们建议的中小银行典型容灾方案是异地的异步方式,而未来目标是灾难备份中的零数据丢失。怎样实现这样的目标呢?建议为三数据中心的容灾方案。 三数据中心的容灾方案即:不仅考虑到考虑建设异地异步容灾系统,同时也考虑建设同城同步容灾系统,将两者统一在同一个容灾系统中,这就是所谓的三数据中心容灾。下面我们将讨论2种以HDS TrueCopy和UR(Universal Replicator)相结合为例的三数据中心容灾的方式。 - 46 - 中小银行信息中心数据整合与容灾 分析报告 5.7.1 级联(Cascade)容灾方案 图 3 级联数据复制方式 在该方案中,生产中心与同城容灾中心之间采用同步数据复制技术,而同城容灾中心与异地容灾中心之间采用远程异步数据复制技术。这种方式中,生产中心与同城容灾中心之间有着密切的关系,如果生产中心在将数据发送到同城容灾中心时,发现中间的线路或同城容灾中心的存储设备有任何故障时,整个数据复制过程将停止,为了保证生产中心与同城容灾中心之间的数据严格一致(这是级联容灾方案所必须的),生产中心的存储系统将自动关闭主机访问通道,主机上运行的业务系统将自动停止,造成用户无法访问到业务系统。从这个角度讲,级联容灾方案中,各个数据中心的关系都非常紧密,无法做的相对,使用户虽然建设了容灾系统,确不得不面对由于系统自身问题带来的灾难。目前,类似HDS这样的主流存储厂商,虽然能够提供这样的方案,但都不建议用户采用。在本次项目中,我们同样不建议采用级联容灾方案。 - 47 - 中小银行信息中心数据整合与容灾 分析报告 5.7.2 多目标(Multi-Target)复制方式 图 4 多目标复制方式 在多目标复制方式中,生产中心与同城容灾中心之间采用同步数据复制技术,生产中心与异地容灾中心之间采用异步数据复制技术,这种方式一方面能够保证同城容灾数据丢失量最小(RPO近似为0),而且在生产节点发生灾难时,同城热备节点将快速接管应用系统(RTO小)。如图,在同城容灾中心与异地容灾中心之间还有一条备用数据通道,该通道用于在同城容灾中心接管应用系统后,异地容灾中心作为同城容灾中心的远程容灾节点时数据传输的通道。 这种方式中,生产中心与同城容灾中心之间是相对的关系,如果生产中心在将数据发送到同城容灾中心时,发现中间的线路或同城容灾中心的存储设备有任何故障时,整个数据复制过程将停止,此时生产中心的存储系统将继续为主机系统提供数据访问服务,并实时记录下生产中心数据的更新情况,主机上运行的业务系统不会停止,用户能够继续访问到业务系统。当数据复制线路或同城容灾中心的存储设备故障排除后,生产中心会将所有更新的数据复制到同城容灾中心。 由此可见,多目标复制方式是最为可靠的一种技术,即能够保证同城容灾系统的切换,也能够保证同城两个节点都发生灾难时,还有远端节点作为保护,大大提升了应用系统的业务连续性。 5.7.3 三中心的建议 我们在构建中小银行的当前容灾架构时就建议考虑到这一点,未来系统可以 - 48 - 中小银行信息中心数据整合与容灾 分析报告 通过多目标复制方式实现同城同步,异地异步的容灾方式: 一方面在同城两数据中心内采用直连光纤,在同城采用同步的容灾系统的复制技术;另一方面与异地数据中心存储进行远程数据复制。 - 49 - 因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- sarr.cn 版权所有 赣ICP备2024042794号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务