机房搬迁是指将现有的服务器、网络设备以及相关的 IT 基础设施从一个物理位置转移到另一个位置的复杂过程,涉及周密的规划、设备的安全打包、运输和重新配置,以确保数据中心的业务连续性和最小化搬迁风险。
1. 搬迁工作内容
搬迁工作主要包括以下工作内容:
- 在调研分析阶段,通过对新机房基础设施、应用架构、应用关联、风险识别等环节的仔细梳理和研究,制定出整个搬迁的策略。
- 在规划设计阶段,以搬迁策略为主线,展开详细的涵盖数据保护、单系统搬迁、物流等方面的搬迁详细计划,完成搬迁项目方案的详细设计工作。方案中需要确认搬迁技术准备工作内容,并同步制定详细的搬迁工作手册,明确搬迁过中需要参与的人力资源和信息系统迁移、业务切换等需要的搬迁时间窗口。
- 在搬迁实施阶段,按照搬迁的详细设计方案,针对搬迁技术准备工作内容及搬迁工作手册实施搬迁前的演练,通过演练对搬迁方案和计划进行检验并修正,以期在正式搬迁中得以最大限度地安全实施。
- 在搬迁收尾阶段,结合数据中心的基础设施运行环境,开展信息系统迁移后的性能优化、灾备恢复及测试,并对新、旧数据中心的设施以及搬迁相关工作进行总结。
2. 工程搬迁规划
2.1. 需求调研
需求调研阶段,主要是细化搬迁的需求,对于搬迁过程中所涉及的内容,需要逐一进行核对,按照整体的工程设计要求,确认相关的设备,具体工作包括:
A 明确需要搬迁的设备
需要明确设备的型号、使用年限、物理硬件配置、系统配置参数、安装位置(搬迁前)、安装位置(搬迁后)、联网情况(所属网络、IP 地址、安全控制策略等)、当前设备的健康状态、备品备件情况等
B 明确需要搬迁的设备所涉及的应用系统
- 需要明确相关应用系统的拓扑情况,包括:物理网络拓扑、数据逻辑拓扑、系统层次拓扑及与其他系统(新建/原有)的关系等
- 需要明确相关服务器中的应用软件部署情况,包括相关的支持环境、操作系统的等
- 需要明确相关存储设备的分配情况,包括 SAN 交换的配置、LUN 卷分配与绑定关系、RAID 配置等
- 需要明确相关网络、安全设备的配置情况,包括:硬件配置,软件配置等
- 需要明确其他设备的配置情况,包括:硬件配置、软件配置,以及相关的线缆连接情况等
C 明确需要搬迁的设备的搬迁需求
根据 A、B 确认的内容,通过对业务系统使用情况的调研,确认相关系统可以承受的搬迁影响,明确:
- 可以承受的停机时间
- 可以承受的数据保障级别
- 可以承受的最大数据恢复时间
- 可以承受的最大系统恢复时间等
2.2.编写搬迁规划,并模拟执行
根据需求调研的结果,编写详细的搬迁规划,规划至少需要包括以下内容:
- 搬迁前的情况(搬迁前“画像”)
- 搬迁后的情况(搬迁后“画像”)
- 搬迁步骤,需要细化到每一个设备的搬迁、每一个设备的配置调整,需要估算出相应步骤的执行时间(精确到 15min)
- 确立需要的搬迁前检查列表和搬迁后检查列表的主要内容(在下阶段中细化)以及相关的搬迁步骤
- 编写完搬迁规划后,由相关专家一同进行评审,建议采用模拟执行的方式进行虚拟搬迁,以发现其中的潜在问题。
- 按照发现的问题,修正搬迁规划并固化。
- 编写应急方案的主要内容,将其作为搬迁规划的重要附件
2.3.搬迁准备
在按照搬迁规划正式开始搬迁前,需要按照规划完成搬迁的准备工作,如果相关的工作未能完成,应推迟相应的搬迁工作,其主要内容包括:
- 备份相关系统,包括但不限于系统配置、应用配置、应用软件、支持软件、数据等,对于重要的内容需要备份 2 份。
- 在测试设备上对备份情况进行检查,确认还原活动的可行性,必要时实际执行还原操作,编写还原方案(开机方案)
- 细化检查列表,包括搬迁前检查列表和搬迁后检查列表
- 细化应急方案
- 按照规划的要求进行备用设备及备品备件的准备,确认相关备用设备及备品备件(需要到现场)
- 确认搬迁后设备的安装地点已具备相应的安装位置(包括附件)、供电能力、环境控制能力等
2.4.执行搬迁活动
在 3 完成后,即可按照搬迁规划的内容,进行搬迁活动,原则上搬迁活动应按照下述要求进行:
- 按照搬迁前检查列表,确认被搬迁设备状态,应为完好状态
- 按照搬迁规划的规定,停止被搬迁设备运行
- 拆除设备
- 搬迁
- 安装设备
- 按照搬迁规划的规定及还原方案恢复设备运行。
- 搬迁拆卸、安装过程中,需注意防止静电危害、注意轻拿轻放、防止撞击/摔落
- 建议的停机顺序为:应用、视频设备、服务器、存储、网络/安全设备
- 建议的开机顺序为:网络/安全设备、存储、服务器、视频设备、应用
2.5.恢复系统运行
在开机的过程中,按照还原方案的规定,结合搬迁后检查列表的内容,对恢复运行的系统进行逐项检查,确认系统已恢复正常,可以提供用户使用。如果发现异常情况,应立即由相关系统专业工程师对故障进行排查,及时修复故障。
2.6.应急处置
考虑到搬迁过程中存在意外情况,需要编写相关的应急处置方案,以便在出现意外时执行。方案应基于风险分析的结果进行编写,针对具体的搬迁内容、步骤。建议主要针对下述风险进行:
- 搬迁过程中硬件损坏
- 主要通过备品备件、备用设备解决,在搬迁过程中一旦发生,应立即予以替换。
- 搬迁过程中数据丢失
- 主要通过系统备份解决。如果需要恢复的数据量巨大时间比较长,可以考虑先恢复系统运行所需的核心数据(基础数据等)恢复系统运行,再恢复大量的历史归档数据
- 搬迁过程中配置丢失
- 主要通过系统备份解决。
- 搬迁调研缺失相关内容
- 利用编写的回退方案,停止搬迁,回退原有系统。重新调研后再次搬迁。
3. 数据保护方案
数据是信息系统的生命,数据中心搬迁的实施,很大程度上依赖于“数据”的搬迁。首先,数据的内容包含了系统数据,如操作系统、配置文件、系统日志等,还包含应用程序数据,如应用程序执行码、应用程序运行日志、应用程序配置文件等,除此之外,最重要的也是银行最宝贵的还有应用系统和操作系统所关联的数据库、存储等,以上几个部分的内容构成了数据保护的关键目标。
围绕数据保护,需要具体分析系统、备份、存储现状,并对数据的重要性级别进行分类,接下来,通过利用磁带库、NAS、磁带、磁盘等各种设备,使用存储底层同步、基于卷的数据迁移工具、磁带备份、磁盘克隆等各种技术手段,确定操作系统、数据库、应用数据等各种数据关键目标的保护方案,确保在搬迁过程中每台搬迁设备上的数据都万无一失。
另外,一些非核心系统的“系统备份”、“应用程序备份”等在日常的备份工作中往往容易被忽略。所以,在设备搬迁这样的重大变更中,需要重新设计这些系统的备份和恢复方案。同时,对于核心系统的关键数据,在搬迁当日,还须额外进行多份备份,以确保生产数据的绝对安全。