很多企业都在考虑一个问题,就是如何创建一个灵活的、有弹性的数据中心。这其中包括确保计算机系统和其他重要设备的有序恢复,保证所有供电系统的正常运转等等。为实现这一目标,我们需要一个完善的灾难恢复规划。
假设你希望数据中心的恢复规划良好,你必须将数据中心看做业务流程,其中有大量相互依赖且变化的部分。并且,由于其中有大量相互关联的部分,当意外发生时,所有要做的事情必须预先用流程的形式写在文档上。如果数据中心管理员对灾备毫无概念,这将是非常危险的事情。当所有事情都出了问题后,每个人都会将矛头直指该数据中心管理员。
一整套体系架构和相关应用程序的流程首先是必须的。每个部件,或每个部件组通常有支持的体系架构,并且通常来讲,都有一个或一组人对其负责。因此服务器会分到服务器组中,或虚拟组中,也有可能两个都是。所有这些通常在一个体系架构组或一个运营组下面,然而当遇到重大事故时,这些都会呈现星状图拓展开来,和各容灾管理员直接对应。谁负责,谁决策,需要做什么,以及所做的顺序,这类管理模型必须清晰地记录下来。
在整个容灾规划中,每个功能模块必须明确其角色,负责范围,以及时间点和所需执行的流程步骤。在数据中心中,所有的资源被完全保护并具备冗余。到一定程度后我们会惊奇地发现绝大多数数据中心中充斥着单点故障,这是我们必须考虑解决的。
另外,电源UPS风险也要充分考虑到。当然,还有一部分风险在于不间断电源是否可以支撑到发电机启动并接受所有这些麻烦。而且,让供应商参与到实际测试中还是十分必要的。也可以通过电力公司参与测试。不过对于不间断电源这种孤立的设备,是非常重要的……但你要从端到端考虑。不仅是不间断电源,还有不间断电源的不间断电源,以及发电机,导线和电源分配器,并且按步骤从不论是变电站或发电机获取电量。很多事可以,也应该作为预防维护事件进行。每年或每半年你应该进行负载测试;你应该做预防性的监测;你应该进行红外线测试来检测电线是否老化……所有这些都是一个整体。
总之,在进行数据中心容灾规划时要考虑到从主体设备到辅助硬件的方方面面。任何一个层面出了问题都可能影响业务连续性运行。
田鑫,专业的企业组网服务商,致力于为企业提供企业组网(SD-WAN、MPLS、云互联),业务云化、数据中心、网络安全、行业IT解决方案等相关服务。
更多相关内容推荐:
云厂商大模型之战 中卫缘何成为智算必争之地?
首个“双节点”城市中卫如何为算力构建起网络支撑?
机遇与挑战并存,中卫如何打造西部数谷?
从高碳到高效 中卫“拉近”算力与绿色的距离