“存储前沿趋势开讲啦”第一季正式开播

来源：IBM 2014-07-28

2014年7月24日，“存储前沿趋势开讲啦”网络公开课首次登陆“存储架构师社区”，正式开播！

第一季公开课邀请到了中国航空结算有限责任公司（ACCA）的高级系统架构师—高迪，分享其对存储前沿趋势的认识：“为大数据再造存储”。以下是本季嘉宾的主要观点：

我们首先引入的一个概念是BCM（BusinessContinuityManagement），BCM的主要作用是当灾难发生后，迅速对业务进行切换、恢复，以保证业务的连续性。其不仅包括我们目前耳熟能详的备份、容灾，还体现在整个企业的管理层面，对人在灾备发生时的作用也有较高的要求。我在这里不谈关于人的管理层面操作流程这一块，虽然这也是非常重要的一部分。我只谈技术的实现。

针对数据保护的技术实现，我们有多种多样不同层次的保护方式，比如操作系统上的LVM镜像，磁盘阵列的各种RAID方式，物理磁带库，虚拟磁带库，或者离线的长期保存。但是其中最重要的一个共性就是一份数据多份存储，最重要的一个不同点，简单的说，在于就是它们能够提供的RPO和RTO不同。我今天就沿着这条主线，按照提供的RPO和RTO不同（黑板，从下往上画）。来分别讲不同的保护方式。这两个名词什么含义我觉得就不用说了。

传统的基于业务的磁带备份方式，在业务规模不大，或者对数据的RPO，RTO要求不高时，这种数据备份方式能够较好的保护数据，并在发生数据丢失时，提供可操作的数据恢复方法。这里面有很多的成熟产品和技术，比如IBM的TSM，sysmmatirc的NBU，EMCnetworker，甚至还有现在专业基于虚拟化平台比如vmwarevsphere的avamar产品，可以搭配各种硬件备份设备，实现不同类型的备份。

但是随着公司业务的发展和数据容量的增加，这种磁带备份方式在单个业务发生数据损失时，恢复方式尚可满足要求，然而一旦出现多个业务同时出现数据问题，或者磁盘阵列本身发生故障造成多个或所有业务不可用，几十TB的大数据容量，采用这种恢复方式，数据恢复时间将成倍数级的延长，预计磁盘阵列数据的恢复时间需要以天为单位，这将会超出很多业务的SLA要求，而且数据的可恢复点受限于最近一次成功备份的时间点，这时的RPT和RTO的时间基本是以天为单位。

为此，针对现代企业中，那些对灾难发生时的RPO和RTO有较高要求的关键业务，需要考虑更为有效快捷的数据保护和恢复方式。

如果有一种方式，可以将RPO从以天为单位控制到以小时为单位，甚至是故障发生前的几分钟到几秒钟秒，而RTO也控制在同样数量级的话，对关键业务的持续可用性将有重大提升。我们就可以实现CDP（continuousdataproduction）

持续数据保护是一种连续捕获和保存数据变化，并将变化后的数据独立于初始数据进行保存的方法，而且该方法可以实现过去任意一个时间点的数据恢复。CDP系统可能基于块、文件或应用，并且为数量无限的可变恢复点提供精细的可恢复对象。在传统数据保护技术中采用的是对“单时间点（SPIT，SinglePoint-In-Time）”的数据拷贝进行管理的模式，而持续数据保护可以实现对“任意时间点（APIT，AnyPoint-In-Time）”的数据访问。

因此，CDP解决方案都应当具备以下几个基本的特性：数据的改变受到连续的捕获和跟踪；所有的数据改变都存储在一个与主存储地点不同的独立地点中；恢复点目标是任意的，而且不需要在实际恢复之前事先定义。

我们知道各个企业在长期的发展中，企业生产数据会存放在不同品牌的不同型号存储上，比如IBMDS800,DS5000/4000，EMCVMX，VNX系列等。异构存储间的存储机头，扩展柜、硬盘，因其互不兼容性，无法利用存储设备本身的备份技术，形成相互备份的架构。在这种现状下，我们要选用的技术，它能够忽略这些不同，能支持各种存储，

为此我调研了市场上比较流行的几个CDP产品，有IBM，EMC，还有飞康等。最后我们选定使用EMCrecoverpoint产品，

它可以实现本地和异地的数据复制保护，独立于应用程序，基于block的复制，能够实现精确到秒级的历史时间点恢复，而且整个恢复过程在20分钟内就可以完成。而且选用这个技术，和我后面将要介绍的更高标准的RPO，RTO实现也有紧密的结合。

RecoverPoint由几个主要的概念组成：

•RecoverPoint应用装置—这是一个运行了RecoverPoint软件的双节点Intel体系结构服务器。典型的配置需要至少两台，一是为了避免单点，二是提供负载平衡。两个设备间通过内部网络相互通信。

•写操作镜像/拆分，就是splitter，拆分器，能够把写操作拆分到不同的设备上。在RPA4.0以前版本，三种….现在是只有两种….

•RecoverPoint软件在RecoverPoint应用装置上运行，通过与拆分器驱动程序和其他RecoverPoint应用装置通信来提供数据保护功能。

•Journalvolume，productionvolume，repliavolume。每种简单介绍一下。

见的有三种部署模式，一种是local的，一种是remote的，一种是local和remote相结合的。

它的工作原理，数据传入底层存储时，通过splitter拆分器，也传一份到recoverpiont设备上，这里需要注意的时，不管采用何种splitter方式，都会在保证数据传到了源存储设备上，当然这个过程是同步的。在数据传到RPA设备上后，rpa设备就会发送一个写确认给源，保证后面的写操作继续进行。之后rpa设备会写数据到journal卷上，并且增加时间戳和一些自定义的bookmark。Journal卷写满后再写到复制卷上，数据能恢复到历史上哪个时间点，距离当前时间多久，也就是RPO最远能到哪个时间点，就取决于journal卷的大小。

前面说的从传统的备份到RPA软件，基本实现了RPO从天到小时的转换，但是一些核心业务系统，他们对RPO的要求更高，他们要求RPO为0，对RTO的要求也接近于0，采用之前介绍的方式，就还是不能满足了（画黑板），此时我们需要的是一种能够在多个业务所在磁盘阵列发生故障时，可以保障数据不发生丢失，并提供无中断的数据恢复切换方式，自动的将数据挂载在无故障的盘阵上继续运行，并且性能上不受影响，?这就需要一个双活就是active/active的系统。

它可以将不同品牌的存储资源进行整合，形成存储镜像映射关系，将镜像后的逻辑磁盘分配给前台业务适用，业务在传递数据时，后天的存储在线自动同步备份，在发生磁盘阵列故障时，同步备份数据能够在不影响生产业务的情况下，无中断的继续使用。实现存储系统零停机，对主机和业务系统完全透明。

此时我们考虑使用存储虚拟化技术，对关键业务进行存储级别的Raid1镜像。

这种数据保护和恢复方式，它的PRO就是0，RTO我不敢说就是0，但基本是接近于0，就是一个存储路径切换的过程而且。

我考察了市场上主流的存储级别虚拟化产品，比如IBMSVC,EMCVPLEX,NETAPPV系列等，分别进行了测试。实施的效果是，可以将我们的IBMDS系列存储与EMCVNX系列存储进行多个层次的镜像虚化。(黑板画到最上层)

虚拟化设备本身是由引擎ups，内部交换机，控制台组成的，这一个引擎内有两个控制器，我们叫它director。每个引擎上有64G缓存，32个FC端口。可以通过配置多个引擎，实现高可用集群。

它有4种配置模式，local，metro，geo和global，比较常见的是local和metro模式。而且我们选用这个技术，有一个前后的衔接关系，我们知道在前面介绍的rpo时间为小时分钟级的产品技术RPA中，有一个重要概念是splitter，在新版本的rpa中，splitter只能通过指定厂商存储或者VPLEX来实现，但是作为一个企业来说，它使用的存储设备很可能是多个存储厂商的设备组成的。所以我们使用vplexsplitter，通过一条命令开启vplex设备的spliiter功能，来实现数据的拆分，这样我们就可以将之前部署在各个品牌和型号的存储都纳入进来，实现RPO=0的存储保护.

经过上面的讲述，对于数据中心的业务连续性保护，我们基本上形成了这样一个倒金字塔形的结构（黑板画金字塔），（下面是一边画一边讲）他们分别用于企业中普通的IT系统，重要业务系统和核心业务系统。这样针对企业内部各种应用业务，我们都有了对应的存储连续性解决方案。其实这也不是说明rpo=0的技术方案就比

【编辑：chuyun】

上一篇：7月底前大连货运通手机微信平台功能升级

下一篇：钢云互联平台,第四方仓储物流模式重拳出击

“存储前沿趋势开讲啦”第一季 正式开播

“存储前沿趋势开讲啦”第一季正式开播