一个企业要想走向云,必须经历虚拟化的阶段。
 
大家都在朝着云的方向努力,越来越多的用户开始大规模应用虚拟化,还有很多用户把核心应用也迁移到虚拟化平台了。
 
于是,虚拟化平台的可用性越来越受到关注,高可用,数据保护和容灾成为了热门话题。
 
VMware的vCenter SRM是一个专为vSphere虚拟化平台所设计的容灾方案,简单高效,如果你想亲自体验一下这个方案,那就参考下面的评估指南吧,由西蒙带你开始SRM的体验之旅。
 
硬件环境准备:
 
至少两台服务器(2 CPU,16G RAM以上),两台存储(需要能够配置复制,FC,iSCSI或NAS都是可以的,具体型号见兼容性列表: http://www.vmware.com/pdf/srm_compat_matrix_4_0.pdf),LAN及SAN网络连接设备。
条件允许的话,可以准备三台服务器,在主站点建议HA的环境,体验HA+SRM的效果。
 
如果没有硬件存储,也可以用Falconstor NSS一类的软件来代替,我在Falconstor的网站上注册了好几次,都说得到批准了,可就是没有收到邮件。
 
下面是架构图,供参考,我们可以简化一下。
 
 
安装过程简述
 
1,安装ESX/ESXi;
2,建Windows虚拟机,安装OS,安装vCenter和vSphere Client,建议两个vCenter服务器安装成Linked Mode,这样连接到一个vCenter服务器就可以管理两个vCenter上面的资源了;
3,建datastore,并在存储设备上配置datastore所在的存储位置(Lun或nfs)的复制关系。
4,在配置了复制的datastore上创建测试虚拟机,在虚拟机内部安装测试应用,如SQL,Exchange等常见应用。
5,在VC上安装SRM,并安装与存储配套的SRA,安装完SRA后要记得重启SRM服务。
6,在vSphere Client上安装SRM的插件。
 
准备工作是比较费时的,但是并不难,详细的步骤就不介绍了,大家可以参考我之前写的一些文章。提供两个网址,可以下载vSphere和SRM的技术文档:
 
VMware vSphere: 
http://www.vmware.com/support/pubs/vs_pubs.html.
VMware vCenter Site Recovery Manager: 
http://www.vmware.com/products/srm/resource.html.
 
容灾切换与容灾演练流程
 
容灾切换流程:
1,如果相关虚拟机仍然运行在主站且可在容灾站访问,则停止这些虚拟机。
2,挂起存储复制,在复制端启动读写功能。
3,重新扫描以发现FC或iSCSI设备,如果是NFS设备直接挂载。
4,注册副本虚拟机到vSphere。
5,如果需要,停止容灾端正在运行中的非关键任务虚拟机以提供计算资源。
6,按顺序在容灾站点启动虚拟机。
7,生成报告。
 
容灾演练流程:
演练不需停止生产端,不会造成不必要的停机时间。
1,在容灾站点生成一个隔离环境以检验容灾系统的有效性。
2,重新扫描以发现FC或iSCSI设备,如果是NFS设备直接挂载。
3,注册副本虚拟机到vSphere。
4,如果需要,停止容灾端正在运行中的非关键任务虚拟机以提供计算资源。
5,按顺序在容灾站点启动虚拟机。
6,验证服务的有效性,复制演练所做的改变。
7,生成报告。
 
配置恢复工作流
 
1,设置站点配对,用SRM管理器配置主站点到容灾站点vCenter的连接。需要提供vCenter的地址和管理员账号。
2,为需要复制的datastore设置Array Manager。需要提供存储设备的管理地址及管理员账号,要确保Manger Type选择正确,如果找不到匹配的Manager Type,则说明对应的SRA没有正确安装在SRM服务器上。配置好以后,SRM将连接到存储上,检查存储的复制情况,已经配置好复制的将显示绿色对号。
 
 
3,配置清单映射,把两个站点中的资源(包括网络,资源池和虚拟机文件夹)进行关联,你并不需要为所有的对象指明关联对象,只需要对与容灾相关的组件进行配置,如下图中的例子,只为三个对象指定了对应资源:
 
 
4,配置保护组。
 
首先给出保护组的名字和描述,接下来要选择Datastore组,这个组是根据Array Manger的报告生成的,与你的复制配置有关。接下来要指定用于创建Placeholder VM的Datastore,占位符体积很小,可以选择任意Datastore,但是请不要选择复制存储对应的Datastore,它要随时与源Datastore保持一致。
 
5,配置恢复计划。
 
进行操作之前,要连接到容灾站点的SRM,在VC4.1中,可以直接在vSphere Client的管理界面中切换:
 
 
接下来指定名字,选择对应的保护组,接下来是两个超时值的设置,网络超时是指如果到了指定时间虚拟机还没有完成网络的配置,则记录错误,继续流程。虚拟机心跳超时是指到了指定时间没有收到虚拟机心跳信息则记录错误并继续流程(虚拟机内必须安装有vmware-tools),这两个值要计算好,取最长操作的时间值,否则可能会导致误报。接下来指定用于测试的隔离网络,然后指定哪些运行在容灾站点的虚拟机在需要时可以停下来释放资源。
 
6,配置IP自定义。
 
如果要配置的虚拟机较多,可以采用名为dr-ip-customizer.exe的工具进行批量配置,测试时虚拟机较少,可以直接使用VC的自定义配置管理器来定义IP地址的改变。
创建一个新配置,只需要填写网络地址的部分。
 
 
接下来到SRM的虚拟机管理页面上,指定虚拟机使用这个配置。
 
7,进行一次测试。
 
配置完了以后,就可以开始测试了,点击测试按钮发起测试,可以随时看到进行的状态,当所有虚拟机在容灾站点完成启动后,系统会停下来等待检验,如下图,验证后点击继续,向导将自动清除测试时所做的修改。
 
 
上述的所有操作都有向导,所以在管理方面并不复杂。
 
配置告警和站点状态监控
 
SRM会监视虚拟机的CPU利用率,磁盘空间,内存消耗等。当然也会监视SRM的心跳。
 
vCenter监控到的事件可以作为SRM的触发条件,如:
磁盘剩余空间小,CPU利用率超出上限,内存过低,远程站点不响应,运程站点心跳丢失,测试流程开始、结束、成功、失败或取消,虚拟机恢复过程开始、结束、成功、失败或生成告警等。
 
满足触发告警的条件时,可以发邮件,发SNMP消息,或是执行脚本程序。
 
下面我们以远程站点Down这一事件为例,来进行测试,当事件发生时,给主管发送邮件通知。
 
 
关于状态监控,也有一些高级设置可以进行修改。
 
 
实际切换测试
 
因为是测试环境,我们可以随时进行实际的切换测试,与容灾演练的过程还是有区别的,具体的流程我在前面介绍过了。因为实际的切换影响会比较大,所以在真正开始failover之前还会要管理员再次确认。
 
 
 
反向回切测试
 
Failback的过程与Failover类似,只是方向相反而己,在SRM中的配置方法都一样,下面是需要注意的内容:
1,failback之前检查failover是否成功,如果存在问题,先解决好相关问题。
2,别忘了在存储系统上切换复制方向。
3,回切前也要先进行演练,以验证整个过程可以顺利完成。
4,回切前删除掉原被保护站点上的旧虚拟机。
5,需要在原容灾端(新的被保护站点)上配置SRA及其它相关内容。
 
【全文完】