技术交流平台

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 3448|回复: 0

IDC机房应急处理方案

[复制链接]

183

主题

195

帖子

1690

积分

新手上路

Rank: 1

积分
1690

活跃会员

发表于 2014-3-31 19:41:03 | 显示全部楼层 |阅读模式
本帖最后由 love_china 于 2014-3-31 19:47 编辑

1.1应急处理原则
凡系统发生故障时,IDC机房负责人必须立即组织抢修,不得拖延。  
值班人员均应熟悉故障紧急处理流程,熟练掌握操作步骤和方法。
值班人员应如实上报故障情况,故障报告应当做到时间清、原因清、结果清。  
重大故障和严重故障立即报上级业务主管领导。对已处理的重大故障和严重故障,事后必须做故障分析,查清故障原因,确定故障性质和责任,采取防范措施,避免同类故障再次发生。
1.2事件等级划分
1. 特大事件
关键设备(包括传输或其它专业所属设备)、软件故障造成所有业务中断;  网络攻击、病毒等引起的全部业务异常或中断;  A级客户业务中断超过1小时;  B级客户业务中断超过2小时。
2. 重大故障
A级客户业务中断超过30分钟;  B级客户业务中断超过1小时;网络攻击、病毒等引起的部分业务异常或中断超过1小时;  机房供电或网络、软件故障造成的部分业务异常或中断超过1小时。
3. 严重故障
A级客户业务中断超过10分钟;  B级客户业务中断超过半小时;网络攻击、病毒等引起的部分业务异常或中断超过半小时;机房供电或网络、软件故障造成的部分业务异常或中断超过半小时。
4. 一般故障
除特大、重大故障和严重故障外的其他故障。
1.3故障处理流程

1.4应急处理与通报制度
IDC机房应建立相关设备故障处理联系制度,并将联系人和联系方法张贴在醒目位置。  IDC机房应建立设备操作手册和故障处理流程,并存放在固定地点。  IDC机房应建立设备运行情况统计和登记表,并存放在固定地点。
1.4.1故障处理
1. 在系统发生故障时,值班人员应对照运行维护手册进行简单的故障处理和准确定位,对无法处理的故障应立即通知系统维护主管工程师,并逐级上报。系统维护主管工程师组织相关人员现场处理,故障处理完毕后,马上通知故障发起点,并进行详细记录。当系统发生故障时,网管中心运行维护负责人必须立即组织抢修,不得拖延。
2. 在处理故障时,应严格按照故障处理流程进行,整个流程强调闭环管理,按先重点后一般;先调通后维修的原则进行。  
3. 在系统和设备故障处理的过程中,若出现较为严重或一时无法解决的问题,及时通知故障发起点,并立即向主管领导汇报,同时与厂家联系,及时争取技术支持,填写故障报告。
4. 在系统设备故障处理过程中,若使用了备件单元或备用电路板,应按规定分别详细登记故障发生的工作单元、故障现象或故障代码、换用备件名称、编号,有条件时应附上当时的打印记录,向主管报告,并及时与备件管理人员取得联系,按正确的手续发送返修。
5. 在相关专业部门或设备供应商进行抢修的过程中,网管中心应负责协调相关专业部门,采取其它措施对网络进行监控。
6. 在相关专业部门或设备供应商进行抢修的过程中,网管中心应负责协调相关专业部门,采取其它措施对网络相关数据进行保存和统计。
7. IDC机房负责人应在相关故障排除后48小时内提交故障分析报告。报告将视故障级别上报所在公司运行维护部及相关客户。
1.4.2故障通报
1. 发生严重故障和重大故障时,由地(市)级网管维护部门直接向省级分公司网管中心和运行维护部报告。
2. 对特大故障,分别由省级分公司网管中心和运行维护部上报至总部运行维护部网管中心。
3. 如遇特殊情况也可越级上报。各分公司必须严格按照规定时限执行。
4. 当出现值班人员不能解决的故障时,值班人员应立即上报系统维护主管工程师和部门主管
5. 故障处理完毕一天内,值班人员编写故障报告,上报部门主管,特大、重大故障和严重故障要报上级业务主管部门。
6. 当发生故障时,机房当班人员应将故障发生经过详细填写进《值班日志》。
7. 出现故障后,由网管中心指定专人向相关部门和客户通报故障影响范围和处理情况等。 8. 机房负责人应如实上报故障情况,故障报告应当做到时间清、原因清、结果清。
1.5照明系统
值班工作人员在发现机房普通照明灯熄灭,只有应急照明系统启用时,应首先检查是本楼层部分区域照明电故障还是整个大楼照明电故障,并联系电力值班人员说明情况,要求恢复。
机房值班人员应及时将情况通知维护人员,并在照明电恢复正常前,随时与电力值班人员保持联系,掌握实时情况,进行相关协调工作。
1.6网络系统
1. 由值班人员通过网管系统及网管工具监测网络及网络设备的运行状态,对网络故障进行初步判断。
2. 网络维护人员在不能通过远程登陆处理故障时,应在30分钟内赶到机房现场进行处理。
3. 针对网络系统设备故障进行的处理
GBIC模块、汇聚层华为S8505交换机及接入层S3026交换机均按一定比例配备备件,机房监控室内随时有一台S3026交换机备用;
网络维护人员确认为设备故障后可要求值班人员使用备件对故障设备进行替换,更换设备的过程最长为30分钟;
网络维护人员在备件投入使用后30分钟内应对该设备进行连续的测试、观察,以排除其他原因造成再次故障的可能。
4、针对网络相关物理线路故障进行的处理
值班人员在发现网络出口异常后,应立即查看华为S8505上及城域网相联的GBIC状态灯是否正常。如状态灯熄灭,应立即与设维数据班联系确认故障点,并与网络维护人员联系。
网络维护人员在收到值班人员的报告后应立即根据故障确认解决方案,如是机房自身设备的问题应立即更换备件,在无备件的情况下,请示公司领导同时协调设备厂家解决问题。
网络维护人员在问题解决后应连续30分钟对该线路进行检测,若运行正常则故障排除。
4. 针对网络故障的处理
对机房内部网络中局部小范围内的断网、掉包现象,在确认为某一用户或某几个用户被攻击或因其自身系统原因造成故障并影响其他用户的,可立即采取隔离措施,将其设备从网络中断开,在其根本原因查明并解决前不能接入网络;
对机房网络大面积出现异常或总出口流量异常的情况下,网络维护人员在十分钟内不能处理,同时故障已对用户造成影响,则应立即通知主管领导并联系创意公司及其它厂家的相关人员到场处理
对因上级网络(城域网、省网及国家骨干网)故障,对机房内部用户造成影响的,网络维护人员应及时向上级网管部门通报情况,并随时保持联系,同时及时将相关情况通报用户。
5. 因各种网络安全问题引起的网络故障的处理:
出现因网络安全问题引起的网络故障时,值班人员首先通知网络维护技术人员,网络维护人员应在30分钟内赶到机房现场;
机房值班人员应及时将故障情况通知公司主管领导;
机房值班人员在技术人员赶来现场的过程中应准备好以下物品:机房用笔记本电脑,百兆集线器,直连双绞线两根,交叉线一根以及交换机专用控制线一根,机房专用接线板一块;
技术人员到场后根据实际情况分析机房各网段情况,针对故障明显网段依次进行检测;
检测时首先在一网段中选取一台服务器,按以下网络改动网络:  然后在笔记本电脑上运行在笔记本上运行监听工具软件:

一般情况我们可以先对TCP和UDP进行监听,如果有需要的话可以指定对IP地址或是端口的监听。记录下监听的数据包,并根据数据包的特征来查看是否存在的攻击和异常的网络流量信息。
根据检测所得数据可逐一网段找出存在漏洞被病毒感染的主机或发出攻击的服务器,在保存证据后,值班人员对情况进行详细记录,将问题主机的网络断开后应及时通知相应客户;
在所有的问题主机从网络中断开后技术人员应在30分钟内保持对网络的检测,在网络持续稳定的情况下故障才算处理完毕。
1.7空调系统
1.7.1一般空调系统故障及处理要求
一般空调系统故障指不影响空调制冷功能的各类报警及误报警。告警发生后机房值班人员应首先检查告警信息,并复位空调报警系统,如果报警仍存在,应将告警信息及告警发生时间记录在值班日志上,及时通知机电维护人员对告警进行处理。
1.7.2局部设备温升过快或过热
首先将此设备的机柜门打开,让热空气充分散出,也可以用电风扇对此设备吹风,加快散热速度。购买冰块,放在大盆里,置于局部过热部位,利用冰块融化吸收热量,或者同时放置冰块并用电风扇吹。
1.7.3严重空调故障
发生严重空调故障,会使机房的温度升高,危害设备正常运行。所以发生此类故障后,要积极维修,如果一时无法修复,必须采取应急措施,保障机房环境符合要求。
现在的机房空调都是2主1备份或一主一备,一台空调故障,其他空调可以正常工作。 首先判断机房空调什么故障。如果压缩机故障,送风机工作正常。此时,要把邻近的空调的温度设定值调低1-2度即可。这样,故障空调的风机可以形成空气对流,对故障空调区域的设备影响不大。或者尽量将机房防静电地板掀开.增将出风口.
如果是空调的送风机故障,不能正常送风。此时,就要把邻近的空调的温度设定值调低2-3度,然后把邻近空调的送风口的格栅尽量调整到故障空调前面的区域,这样才能的保障机房温度不至于上升。或者尽量将机房防静电地板掀开,增将出风口,或者拿普通的电风扇在故障空调的影响区域吹风,打开机柜门,冰块局部降温等措施防止局部升温过快。
1.8供电系统 1.8.1供电输入系统
机房建设严格按照电信规定进行施工验收,辅助电缆必须为屏蔽电缆,并经双重绝缘处理、阻燃耐温。各层区域上下左右进线隔断,都已加防火堵料和防鼠隔离网。  IDC机房加强每周一次进行线路防火、防雷、防冻、防水、防鼠害巡查工作,对布线(缆)各区域进行防鼠工作。并于维护单位签定维护合同及紧急处理故障预案,确定责任范围定期总结,早期发现问题及时整改,配备应急使用材料(线材、配件)。
一旦供电线路出现问题,及时向上级主管领导汇报故障情况,并立即联系机电维护高级工程师,由机电工程师按照机房相应工作流程进行操作整改。  
1.8.2内部供电系统
在这种情况发生时,可能造成故障设备所在机柜一路电源断电或全部断电,因此当班值班人员应立即按以下流程处理:  准确判断故障涉及的机柜插座;
将所有断电插座上的设备电源插头全部拔下并对用电设备进行检查,查找断电原因。  在无负载的情况下将电源头柜上该机柜/该路插座对应的空气开关合闸复位。如不能复位,则表明机柜所配插座自身有短路情况,应立即通知电力维护人员前来处理,如能复位则继续执行下一步流程;
将拔下的设备电源插头逐一顺序插上插座。每插上一个插头后应停顿30秒观察是否出现电源头柜空气开关跳闸或告警提示断电情况,应依次进行操作,当某一插头插上时对应的头柜开关立即跳开则表示该插头对应的设备电源有短路现象,应立即将该设备的电源插头拔下,并做好标记。通知电力维护人员进行处理,及时排除故障,恢复供电。  将其他拔下的插头依次插回插座,并继续判断是否还存在电源短路的故障设备,如其他设备均正常即可恢复机柜的正常供电,然后通知电力维护人员对故障设备进行测试,并及时通知该设备的用户到机房进行处理。
值班人员处理上述故障后应及时将情况汇报给公司分管领导。  
1.8.3开关电源更换步骤
假设开关电源系统总共有10个整流模块,实际运行6个,4个备用。第5个整流模块故障,无直流输出,现场检查后无法修复,需要更换备用的模块。 1. 关闭该模块的交流输入开关,
2. 将背面的交流输入电源线、直流输出电源线和通讯线依次拔下, 3. 拧下前面板的固定螺丝,将故障模块抽出,
4. 将备用模块插入故障模块原来的位置,拧紧固定螺丝,
5. 然后将背面的交流输入电源线、直流输出电源线和通讯线依次插上, 6. 调整此备用模块的地址编码为:4, 7. 合上此模块对应的交流输入开关,
8. 备用模块更换完毕,查看模块输出是否正常。
注意:更换整流模块时要注模块前面板的地址码,必须要和故障模块的一致,否则会产生模块通讯中断告警。
1.9消防系统与火灾应急
机房消防报警系统为电信枢纽大楼修建时统一安装的大楼消防报警系统,通过该系统可实现对火灾的报警和自动扑灭。消防系统的相关问题处理办法如下:
1.9.1火灾应急原则
坚持“统一领导、分级负责、严密组织、密切配合、快速反应、保障有力”的原则。  坚持快速恢复生产、减少经济损失的原则。
坚持原则性与灵活性相结合的原则,注意讲究策略和方法。  坚持“预防为主,防消结合”的原则。  坚持“谁主管、谁负责”的“两谁”原则。
1.9.2消防应急处理步骤
在消防报警响起后应机房值班人员立即通知所有用户依照广播指示撤离大楼,值班 人员也一同撤离大楼。
在误告警的情况下,机房值班工作人员应立即返回工作岗位,并在出现告警后半小时内应加强机房各处巡视,并检查机房物资,以保证无其他意外情况发生。  如火警不是误报,则值班人员应询问火灾扑灭情况和可进入机房的具体时间,并在灭火气体释放后到气体排散完之前,任何人都不能进入火灾区域,以免发生意外情况。
值班人员在了解了报警的详细情况后应及时通知公司相关领导。
值班人员在灭火气体排散完后加强机房各处巡视,并检查机房物资,以保证无其他意外情况发生。并将巡查结果报告给公司相关领导.

1.10防汛应急预案 1.10.1第一预案
当受台风或强热带风暴影响风力达8级以上,暴雨日雨量达50.1毫米以上或气象等有关部门发布暴雨将达起始标准后,各机房负责人、机房代维负责人必须到位,加强值班,严格执行报告制度,做到上情下达,下情上报。值班领导和人员遇到突发事件或灾情,及时下达临时紧急处置指令,并迅速向公司上级分管领导汇报。各值班人员要做好防汛值班记录,并检查机房防汛值班到岗到位情况。
1.10.2第二预案
当气象台发布暴雨警报时,防汛应急工作小组成员全部到位。并及时向公司分管领导通知防汛信息,通报风情、水情、雨情。各机房防汛应急工作小组成员要根据各自的职责,加强值班,进一步检查落实各项防汛应急措施,组建各类防汛抢险队伍,落实抢险物资。
1.10.3第三预案
当暴雨袭击或县有关部门发布紧急警报时,防汛应急工作小组成员要按各自的职责进入指挥岗位。并立即进行紧急部署要把防汛作为压倒一切工作的头等大事来抓,并落实各项防汛应急措施。
1.10.4第四预案
遇暴雨突发性灾害天气时,防汛应急工作小组成员要迅速组织人员及时检查疏通地下排水管道,做到排水畅通;要组织专门力量,对易积水的机房进行监测,及时报告灾情,小组领导要监督各校园有关人员到位、到岗,确保机房排涝设施全过程、满负荷运转,必要时及时组织足够的临时排涝设施进行强排。确保人员生命、公司财产安全。
当遇到暴风雨袭击时,各小组成员应及时把机房汛情在第一时间报告公司分管领导,公司根据灾情,联系有关部门及时赶赴现场,做好抢救、转移和安置工作。

第2章IDC机房维护保障方案-简版
1. 机房稳定保障:提供基本IDC保障,包括稳定的电力供应、网络环境、温湿度,并提供可靠的网络安全、安保、消防等防护,并配备经验丰富工程师随时应急处理故障等。 2. 机房基本设施:包括座椅、机房专用推车、显示器、键鼠、排查、螺丝刀、老虎钳、网线、夹线钳、测线仪、拖鞋、鞋套等。
机房值班配合:如服务器出现宕机、客户暂无人员在现场或短时间内无法到达现场与值班人员现场配合处理,要求机房值班电话必须7*24小时电话畅通,机房值班人员具备IDC相应技能,服务器故障排查,网龙故障排查,服务器IP变更,服务器机柜迁移等操作。
3. 机房施工配合:新入服务器时安排足够网络、电力、机架空间等相应环境资源。如服务器进入时安排施工队对内外网网线进行布置、机架挡板调整等工作,施工工作应在当日进行,避免出现应环境未搭建拖延服务器出机完成时间现象。
4. 机房日常巡查:每天至少一次巡查机房。核查电力、空调运行是否稳定,并每周巡查所有服务器前端告警界面是否出现异常告警等。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

点击这里给我发消息” title=|小黑屋|手机版|法律声明|技术交流平台 ( 冀ICP备14003130号 | 冀公网安备13018102000122号)

GMT+8, 2024-5-8 14:26 , Processed in 2.254491 second(s), 29 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2021 Comsenz Inc.

快速回复 返回顶部 返回列表