“存储前沿趋势开讲啦”第一季 正式开播
  来源:IBM  2014-07-28

      2014年7月24日,“存储前沿趋势开讲啦”网络公开课首次登陆“存储架构师社区”,正式开播!

      

      第一季公开课邀请到了中国航空结算有限责任公司(ACCA)的高级系统架构师—高迪,分享其对存储前沿趋势的认识:“为大数据再造存储”。以下是本季嘉宾的主要观点:

      我们首先引入的一个概念是BCM(BusinessContinuityManagement),BCM的主要作用是当灾难发生后,迅速对业务进行切换、恢复,以保证业务的连续性。其不仅包括我们目前耳熟能详的备份、容灾,还体现在整个企业的管理层面,对人在灾备发生时的作用也有较高的要求。我在这里不谈关于人的管理层面操作流程这一块,虽然这也是非常重要的一部分。我只谈技术的实现。

      针对数据保护的技术实现,我们有多种多样不同层次的保护方式,比如操作系统上的LVM镜像,磁盘阵列的各种RAID方式,物理磁带库,虚拟磁带库,或者离线的长期保存。但是其中最重要的一个共性就是一份数据多份存储,最重要的一个不同点,简单的说,在于就是它们能够提供的RPO和RTO不同。我今天就沿着这条主线,按照提供的RPO和RTO不同(黑板,从下往上画)。来分别讲不同的保护方式。这两个名词什么含义我觉得就不用说了。

      传统的基于业务的磁带备份方式,在业务规模不大,或者对数据的RPO,RTO要求不高时,这种数据备份方式能够较好的保护数据,并在发生数据丢失时,提供可操作的数据恢复方法。这里面有很多的成熟产品和技术,比如IBM的TSM,sysmmatirc的NBU,EMCnetworker,甚至还有现在专业基于虚拟化平台比如vmwarevsphere的avamar产品,可以搭配各种硬件备份设备,实现不同类型的备份。

      但是随着公司业务的发展和数据容量的增加,这种磁带备份方式在单个业务发生数据损失时,恢复方式尚可满足要求,然而一旦出现多个业务同时出现数据问题,或者磁盘阵列本身发生故障造成多个或所有业务不可用,几十TB的大数据容量,采用这种恢复方式,数据恢复时间将成倍数级的延长,预计磁盘阵列数据的恢复时间需要以天为单位,这将会超出很多业务的SLA要求,而且数据的可恢复点受限于最近一次成功备份的时间点,这时的RPT和RTO的时间基本是以天为单位。

      为此,针对现代企业中,那些对灾难发生时的RPO和RTO有较高要求的关键业务,需要考虑更为有效快捷的数据保护和恢复方式。

      如果有一种方式,可以将RPO从以天为单位控制到以小时为单位,甚至是故障发生前的几分钟到几秒钟秒,而RTO也控制在同样数量级的话,对关键业务的持续可用性将有重大提升。我们就可以实现CDP(continuousdataproduction)

      持续数据保护是一种连续捕获和保存数据变化,并将变化后的数据独立于初始数据进行保存的方法,而且该方法可以实现过去任意一个时间点的数据恢复。CDP系统可能基于块、文件或应用,并且为数量无限的可变恢复点提供精细的可恢复对象。在传统数据保护技术中采用的是对“单时间点(SPIT,SinglePoint-In-Time)”的数据拷贝进行管理的模式,而持续数据保护可以实现对“任意时间点(APIT,AnyPoint-In-Time)”的数据访问。

      因此,CDP解决方案都应当具备以下几个基本的特性:数据的改变受到连续的捕获和跟踪;所有的数据改变都存储在一个与主存储地点不同的独立地点中;恢复点目标是任意的,而且不需要在实际恢复之前事先定义。

      我们知道各个企业在长期的发展中,企业生产数据会存放在不同品牌的不同型号存储上,比如IBMDS800,DS5000/4000,EMCVMX,VNX系列等。异构存储间的存储机头,扩展柜、硬盘,因其互不兼容性,无法利用存储设备本身的备份技术,形成相互备份的架构。在这种现状下,我们要选用的技术,它能够忽略这些不同,能支持各种存储,

      为此我调研了市场上比较流行的几个CDP产品,有IBM,EMC,还有飞康等。最后我们选定使用EMCrecoverpoint产品,

      它可以实现本地和异地的数据复制保护,独立于应用程序,基于block的复制,能够实现精确到秒级的历史时间点恢复,而且整个恢复过程在20分钟内就可以完成。而且选用这个技术,和我后面将要介绍的更高标准的RPO,RTO实现也有紧密的结合。

      RecoverPoint由几个主要的概念组成:

      •RecoverPoint应用装置—这是一个运行了RecoverPoint软件的双节点Intel体系结构服务器。典型的配置需要至少两台,一是为了避免单点,二是提供负载平衡。两个设备间通过内部网络相互通信。

      •写操作镜像/拆分,就是splitter,拆分器,能够把写操作拆分到不同的设备上。在RPA4.0以前版本,三种….现在是只有两种….

      •RecoverPoint软件在RecoverPoint应用装置上运行,通过与拆分器驱动程序和其他RecoverPoint应用装置通信来提供数据保护功能。

      •Journalvolume,productionvolume,repliavolume。每种简单介绍一下。

      见的有三种部署模式,一种是local的,一种是remote的,一种是local和remote相结合的。

       

      它的工作原理,数据传入底层存储时,通过splitter拆分器,也传一份到recoverpiont设备上,这里需要注意的时,不管采用何种splitter方式,都会在保证数据传到了源存储设备上,当然这个过程是同步的。在数据传到RPA设备上后,rpa设备就会发送一个写确认给源,保证后面的写操作继续进行。之后rpa设备会写数据到journal卷上,并且增加时间戳和一些自定义的bookmark。Journal卷写满后再写到复制卷上,数据能恢复到历史上哪个时间点,距离当前时间多久,也就是RPO最远能到哪个时间点,就取决于journal卷的大小。

      前面说的从传统的备份到RPA软件,基本实现了RPO从天到小时的转换,但是一些核心业务系统,他们对RPO的要求更高,他们要求RPO为0,对RTO的要求也接近于0,采用之前介绍的方式,就还是不能满足了(画黑板),此时我们需要的是一种能够在多个业务所在磁盘阵列发生故障时,可以保障数据不发生丢失,并提供无中断的数据恢复切换方式,自动的将数据挂载在无故障的盘阵上继续运行,并且性能上不受影响,?这就需要一个双活就是active/active的系统。

      它可以将不同品牌的存储资源进行整合,形成存储镜像映射关系,将镜像后的逻辑磁盘分配给前台业务适用,业务在传递数据时,后天的存储在线自动同步备份,在发生磁盘阵列故障时,同步备份数据能够在不影响生产业务的情况下,无中断的继续使用。实现存储系统零停机,对主机和业务系统完全透明。

      此时我们考虑使用存储虚拟化技术,对关键业务进行存储级别的Raid1镜像。

      这种数据保护和恢复方式,它的PRO就是0,RTO我不敢说就是0,但基本是接近于0,就是一个存储路径切换的过程而且。

      我考察了市场上主流的存储级别虚拟化产品,比如IBMSVC,EMCVPLEX,NETAPPV系列等,分别进行了测试。实施的效果是,可以将我们的IBMDS系列存储与EMCVNX系列存储进行多个层次的镜像虚化。(黑板画到最上层)

      虚拟化设备本身是由引擎ups,内部交换机,控制台组成的,这一个引擎内有两个控制器,我们叫它director。每个引擎上有64G缓存,32个FC端口。可以通过配置多个引擎,实现高可用集群。

      它有4种配置模式,local,metro,geo和global,比较常见的是local和metro模式。而且我们选用这个技术,有一个前后的衔接关系,我们知道在前面介绍的rpo时间为小时分钟级的产品技术RPA中,有一个重要概念是splitter,在新版本的rpa中,splitter只能通过指定厂商存储或者VPLEX来实现,但是作为一个企业来说,它使用的存储设备很可能是多个存储厂商的设备组成的。所以我们使用vplexsplitter,通过一条命令开启vplex设备的spliiter功能,来实现数据的拆分,这样我们就可以将之前部署在各个品牌和型号的存储都纳入进来,实现RPO=0的存储保护.

      经过上面的讲述,对于数据中心的业务连续性保护,我们基本上形成了这样一个倒金字塔形的结构(黑板画金字塔),(下面是一边画一边讲)他们分别用于企业中普通的IT系统,重要业务系统和核心业务系统。这样针对企业内部各种应用业务,我们都有了对应的存储连续性解决方案。其实这也不是说明rpo=0的技术方案就比


【编辑:chuyun】

上一篇:7月底前大连货运通手机微信平台功能升级

下一篇:钢云互联平台,第四方仓储物流模式重拳出击