数据中心调试服务
一、概述
当一个数据中心建成后,我们看到的是UPS、发电机、空调机以及大量的配电设备,还有监控中心里五花八门的监视屏幕。但是,这些系统的运转功能符合我们的设想要求吗?当出现故障时,这些系统的连锁反应是维持数据中心正常运转还是直接导致宕机?作为数据中心的投资方或业主方,我们需要怎么样的专业服务并得出上述问题的明确答案?
数据中心运行调试是唯一针对上述问题的专业工作流程。只有通过调试,才能检验数据中心完工后的物理设施是否符合设计意图,才能确定数据中心达到相当水平的可靠度。
数据中心运行调试并非一件简单的“走过场”工作,调试需要相当多的人力、物力投入,通常在项目建设初期就要摆上议事日程,整体策划与控制。以前很多的教训是数据中心建设临近尾声时,所有来自内外部压力都要求尽早上线投产,结果导致数据中心无暇进行调试,这无疑是一种代价高昂的赌博。在当今高度信息化的社会,我们一旦拥有一个要求7*24运行的数据中心,试问哪一个管理者可以承担数据中心停顿的风险和宕机的损失?
二、什么是数据中心运行调试
数据中心运行调试是一项以实践方式检验并完整记录数据中心的设计与建造结果的综合流程事务,其目的是验证数据中心的可靠性。
尽管数据中心的承建商和设备供应商合同范围内一般都提供“开机测试”服务,但这并不等同于真正意义上的数据中心运行调试。“开机测试”往往都是在孤立状态下进行的“轻载”或“无载”测试,目的是承包商检验其自身供应的或是安装完成的设备运行状态,并以此作为合同依据向业主索要工程款。虽然某些情况下总承包商也会要求各分包单位验证其完成的工作,但由于各分包商是在项目的不同阶段介入,并按其与总承包商的合同行事,因此这些验证工作也不能视为调试。实际上,数据中心内形形式式迥然不同的设备不可能依赖供货合同而界定完整的调试内容、测试方式。
严格意义上讲,在数据中心的项目周期中“调试”是实施阶段的一部分。当数据中心的设备设施到货现场、组装安装、单机上电启动后,调试就应该开始了;一旦综合调试成功完成,数据中心就具备正式投产运行条件,可以实施从建设阶段到运营阶段的迁移。
三、为什么数据中心需要调试
每一个数据中心基础设施都由大量的机电设备组成,而且设备与设备之间、系统与系统之间还设计有复杂的控制逻辑。过去所谓的“数据中心测评”或者“数据中心检测”绝大部分只是设备层面的测试,并不能真实地、全面地识别系统间的薄弱环节,并加以有效的防范与改善。
在普通商业项目上,通过设备层级的检查测试可以满足建筑物(如写字楼)的使用要求,这已经成为一个通用的原则;但是作为“关键设施”的数据中心则必须考虑如何应对系统级的故障。例如,一个总冷量需求1000RT的冷冻站,如果配备了三台500RT的冷冻机就可以实现N+1的冗余。在这样的设计下,任一冷冻机因故障或检修脱离系统时,冷冻站仍可向负载供应足额的制冷量。这在写字楼项目中已经成为标准的、业主乐于接受的方案,但是在同样冷量需求的数据中心项目中,事情就不那么简单了。工程师面临的挑战是:如果一个负责向两台(甚至三台)冷冻机供电的配电盘发生故障了,怎么办?尽管我们有N+1台数的冷冻机,但我们很有可能因为电力故障而导致两台以上停止工作,在这种情形下数据中心只能选择关闭。
如同上图所示,任何一个数据中心光是配电系统都已经让工程师头痛不已,不单要考虑发电机、UPS这些大型设备的系统设计,还要注意开关选型、短路电路设定、旁路设计等等。由于时间和经验的缺乏,一些更为重要的系统间关联关系被设计者或施工者忽略了,如配电系统与空调系统的冗余等级是否相同?排烟与排风系统是否满足发电机满负荷、长时间连续运转的需求?空调系统与消防系统是否有效联动?每一设备系统的状况都被准确地反映到楼宇自控系统?…… 这些隐藏的问题只有通过调试才能确定其真实性,才能确定其对数据中心稳定运行的危害程度,也才能针对性地整改或制订应急预案。
另外非常重要的一点:数据中心运行调试必须是带载的压力性测试。设备级测试一般是在空载状况下进行的功能性测试,而数据中心是面向长期连续应用的基础设施,在使用过程中由于应用特点而可能发生系统负载阶跃式的变化,因此数据中心投产前就要验证其长时间、满负荷状态下的性能表现,验证每个部件、每个系统在不同故障状态下的运行表现。这就是为什么通常的设备开机测试不能视同为数据中心运行调试。
一个数据中心的管理者如果因为时间或者金钱放弃数据中心的调试,在后续年复一年的运营过程中,他将失去准确判断数据中心能力能否满足设计负荷的依据,即使穷于应付也难免因为系统故障而宕机。
四、数据中心的调试范围是什么
严格地讲,数据中心里每一个设备都必须通过调试过程而被验证。在调试过程中,该设备将经历“故障”——“重启”——“回复稳定运行”的全部时序,同时该设备故障将传递到相关联的其他设备,只有当其他设备也能够按预定的方式作出反应,且可以在初始故障修复后回复至正常运行状态,才能确定调试通过并获得可接受的验证结果
在数据中心项目上,调试工作范围主要包括以下系统:
供配电系统
高压配电系统(包括外电接入部分)
中压传输与配电系统(包括变压器、开关柜、切换柜、ATS等)
应急发电机系统
UPS系统
末端供电分配系统(包括PDU、机柜电源条)
数据中心监控系统
日常照明与应急照明系统
空调系统
冷却塔(包括水源供应)
冷冻机
管道系统
水泵
变频设施
水处理系统
加湿器
通风与换热装置
机房精密空调末端
消防系统
水源供应
自动报警与自动记录系统
水喷淋系统
气体灭火系统
消防联动装置
监控系统
楼宇自动化系统(BMS)
能源管理系统
环境与设施监控系统
安防系统(包括视频监控、防盗报警、进出控制装置、门禁系统)
备品备件
现场备件
存放环境
五、 谁来负责数据中心运行调试
数据中心的调试涉及专业的技术工作与复杂的组织工作,从项目管理角度着眼,业主应委派“调试顾问”牵头负责,实践证明这样的工作方式更有利于把握项目方向与控制项目进度。
数据中心运行调试顾问既可以是项目已有参建单位(如设计公司、项目管理公司),也可以是独立的第三方专业公司。鉴于数据中心的重要性,建议大中型项目采用中立的第三方专业公司担当调试顾问。无论采取哪种来源方式,都应该事前仔细评估调试顾问过往经验,尤其是否具有成功实施同类型项目调试的经历。
从项目进程来讲,数据中心的业主一旦选定了机电安装工程的承包商,调试顾问就要随之确定并及早介入前期准备工作。只有这样才能在整个项目实施过程中向承包商清晰传递系统验证、调试验收的要求信息,在设计与施工上有效避免“单点故障”;此外还可以有效降低因工期、预算等原因导致调试过程流于形式的风险。
六、 数据中心运行调试怎么做
完整的数据中心专业调试分以下六个步骤:
1,设计评审,制订调试计划
2,工厂验收测试
3,安装状况检查
4,现场单系统功能验收测试
5,综合系统功能验证调试
6,分析与报告
步骤1
在调试团队组建完成后,作为数据中心运行调试的首要工作,负责组织工作的调试顾问必须准确理解业主方的设计需求,并且从已有设计图纸、设备技术规格资料中收集提取信息形成调试方案。调试顾问还将根据调试工作需要,在评估分析的基础上对设计图纸提出适当的修改意见。
在此阶段,调试团队还将检查调试所需资源是否落实,数据中心的职业安全措施是否到位,数据中心的运营策略与运行规范是否制订。完成上述工作后将输出数据中心的调试计划。
无论是数据中心运行调试的技术方案还是工作计划,并应该被调试团队的各方面充分了解,经讨论修订后由业主、调试顾问、设计、监理、承包商书面确认。
步骤2
数据中心运行所需的主要机电设备,如发电机、UPS、空调机、PDU等,在制造完成并即将发货到安装现场前,调试团队应该在制造工厂进行验收测试。该部分的工作是基于设备采购合同,对已生产设备进行质量、规格、数量上的检查测试;测试方案既可以预先在合同上约定,也可以是由厂家提出后经业主方确认。
工厂检验关键在于验证设备主要功能部件的性能,及早发现制造过程的缺失并在工厂环境下修正,避免现场才发现缺失而对建设进度、建设成本造成的影响。
参加工厂检验的调试团队至少包括业主的代表以及运营方的代表。调试顾问的参加可以进一步保证检验的专业性与检验结果的可信度。工厂检验完成后,调试团队应形成书面的检验报告。
步骤3
设备到货并安装完成后,包括业主、调试顾问、设计、监理、承包商、厂商组成的调试团队将在安装现场进行预备性的检查与测试,包括检查安装工程是否按照设计图纸完成,工程安装质量是否可接受,测试所需电力是否达到安全的供应条件……
在主要以目测方式完成上述检查后,设备将在安全的前提下上电,并进行上电后的初步测试。该部分测试的技术方案与关注点与之前的工厂检验大致相同。
步骤4
数据中心现场的单系统功能验收测试主要是检验单个系统(如UPS系统、空调系统)运行在设计负载下的性能表现符合设计指标要求。在此过程中,系统稳定运行所依赖的冗余度将进行测试,系统运行数据与监控系统记录将进行比对与校准。运行团队应该由全部各方人员组成,其中运营方还将关注系统如何调优,记录最佳的调试取值。
本阶段的调试工作技术方案由承包商提交,调试顾问审核后与业主共同确认。调试工作完成后,调试顾问负责提交书面报告
步骤5
这个步骤是数据中心运行调试阶段最为关键性的工作。调试顾问根据之前各个阶段的工作结果与收集数据,最终确定系统综合测试方案,专业上称之为“调试脚本”(Script)。在调试脚本中具体开列了不同的故障模拟场景,以及在不同场景下在数据中心有关部件、设备上所进行的操作,包括由谁负责这些操作。
由项目各参建方组成的调试团队在调试顾问的统一指挥下,根据所制订的脚本有条不紊地开始多专业、多系统的综合调试与验证工作。通过开动假负载以及其他模拟形式,数据中心各系统工作在满负荷状态下,并进行以下一系列的测试:
外部资源供应中断后的系统反应
内部设备故障后的系统反应
某个系统发出报警后其他联动系统的反应
控制系统发生故障后运行系统的反应
故障信息、报警信息发送的及时性与准确性
调试团队需实时监测、记录以上测试的数据与动作结果,与脚本中的预期结果相对照,及时进行分析差异、处理异常、动作修正。对测试过程发生的问题故障现场会商,以决定是否整改修正、再次测试。
综合调试的全过程都应该被完整记录,并在调试结束后由调试顾问形成书面的报告。
步骤6
调试现场工作结束后,数据中心业主方应组织调试团队会议,由调试顾问分析讲解调试结果。调试顾问主要就以下方面给出意见:
调试过程错误记录分析
系统性能数据分析
趋势分析
整改建议
七、 数据中心运行调试有什么好处
从上述介绍,我们可以看出数据中心运行调试是一项承上启下的关键工作。一方面可以检查验证数据中心的设计与建设,另一方面可以用于指导数据中心的运营管理。
每一个数据中心都是投资巨大的项目,如何在它上线之前就能准确地检测其性能符合要求,而不是在投产后,更不是在发生宕机事件以后?这是投资者和管理者都最为焦虑的。而数据中心运行调试可以很好地回答这个问题。通过调试,数据中心业主既获得了有形的收益,也获得了无形的回报。
有形收益主要表现在:及早发现问题,降低停机风险损失
有效验证承包商的工作,为合同执行(如奖惩款支付)提供确切依据
避免降低或损失数据中心的生产能力
人员培训
无形回报主要表现在:提高数据中心所支撑的信息系统安全性
积累丰富数据中心的知识库
有利于后续的效率提升
清晰的责任划分
数据中心的运营方是调试的主要受益者之一。在调试结束后,运营方应尽可能地充分利用调试过程收集的数据与信息,包括但不限于:提出缺陷整改要求
编制运营管理制度
编制设备维护计划
编制定期评估与改善计划
形成培训资料
用于保修声明、保险声明
八、 数据中心运行调试的成本
数据中心运行调试并非一件轻而易举的工作,所以也不会是一项低成本的工作。
调试的成本主要包括以下方面:
时间成本
资源消耗成本(电力、水源、燃油等)
调试顾问酬金
人工费(含差旅费)
专用仪器、专用测试装备
典型案例分析,一个IT负荷面积为2000平方米,设计指标为Tier3,功率密度达到1400W/㎡的数据中心,不计算时间与能源消耗因素,各项调试工作的总计成本为人民币180万元,历时两个月完成。
而国外数据中心的建设预算中,一般预留2~3% 的总体建设费用作为调试费用,预留2~3个月的时间用于调试与整改。
并非只有大中型的数据中心才需要考虑调试,虽然调试成本是一个必须考虑的因素。事实上,中小型的数据中心通过适当的调试也会改善整体的性能。早在2005年,美国权威机构Data Center World公布了一系列统计数据:在大多数统计案例上,数据中心业主投入数据中心总造价的2%用于调试验证,由此而换来数据中心性能提升相当于5-10%的投资回报