还剩12页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
运维应急故障处理方案文件编码版本AQ2L02-S001V03□一阶口二阶■体系文件口技术文文件层级文件类别■三阶件■内文口秘密编制部门运维部机密等级口机密口绝密■通用编制人文件类别口项目__________审核编制日期审批生效日期总页数9分发编号01文件发布盖章发现不足及时完善.表单6应急预案演练记录表保存期年4运维应急预案
一、引言运维(运营与维护)是指组织或者个人对某种产品或服务的系统或者网络进行监控、管理、修复、维护的过程与实践在运维工作中,应急预案是确保系统连续性和业务高可用性的重要保障本文将介绍一套完整的运维应急预案,以应对各类突发状况和故障
二、预案设计.事前整理为了有效应对各类可能出现的问题,预案设计之前应该对系统、1网络和设备进行全面和细致的调研与整理根据对系统的了解,确定其安全、稳定性等关键问题,并制定相应的处理策略.建立应急联系人名单建立一个应急联系人名单,该名单中应包含系统管理、2网络管理和其他相关部门的负责人员,以便在紧急情况下迅速联系并得到及时解决.突发事件分类与设置标准制定突发事件的分类,例如设备故障、网络故3障、系统停机等,并为每个分类设置相应的应急处理标准在突发事件发生时,按照分类和标准迅速识别,从而快速采取相应的措施.预案的定期演练4定期的预案演练是确保预案的有效性的重要环节在预案演练过程中,可以评估应急响应流程的合理性,并对应急预案进行适当的修改和优化
三、应急响应流程.报警针对系统的报警,管理人员应能够迅速响应对于突发事件的报警,1应当设立响应机制以确保及时察觉并采取应急措施.事件识别与评估一旦2收到报警,需要对事件进行识别和评估根据事件的紧急程度和影响范围,对问题进行分类和优先级排序,并及时通知相关负责人员.临时隔离与应急控制针对已确认的突发事件,应进行临时隔离与应急控制,3以限制事件的影响范围和进一步恶化,同时启动相应的应急预案故障修
4.复与恢复在隔离和控制事件之后,需要进行故障修复和系统恢复工作这可能涉及到备份数据的恢复、设备更换、软件修复等措施工作团队应按照预案中相应的流程来进行操作,并进行相关记录
四、灾后总结与优化.灾后总结1在灾难事件结束后,需要进行灾后总结这一过程将有助于识别发生的问题、提高应对突发事件的能力,并找出改进的空间,以减少类似事件再次发生的概率.优化与改进2基于灾后总结的结果,应对预案进行优化与改进这包括修改应急响应流程、调整故障恢复方案,以及加强设备和网络的监控与管理.培训与人员准备3运维团队应定期进行培训,以确保成员了解最新的应急预案和操作流程此外,应确保人员能力的适应性,认真落实相关的应急准备工作
五、结论运维应急预案是一个组织能否有效应对突发事件并保障正常运营的重要保障通过建立完善的应急预案并定期演练,可以增强运维团队对危机的应对能力,提高系统的可靠性和稳定性持续的优化和改进是保持预案有效性的关键,因此需要经常进行总结和评估,以保持应急预案的适应性文件制/修订记录版本页码制/修订记录修订人修订日期备注早下修订前修订后全部全部首次制定无V012,3职责/作业内容V01V024,5按新的角色职责定全部全部V02V03义更新角色目的1用于突发性事件发生后的应急处理措施,确保在紧急情况下仍能保证系统平台正常运行适用范2H本程序适用于所有在系统平台运行过程中能事先预测到的非自然灾害所产生的突发性事件术语和定义3突发事件由于系统软件,硬件,接入线路,机房电力,温度等发生问题和突发意外,引起故障时间达分钟以上,造成关键服务不可用,形成重大影响的事件30职责4运维工程师
1.1负责突发性事件应急处理计划和对策的拟定和执行平台研发部,移动应用部,客户服务部,服务营销部
1.2由部门负责人及相关人员[:同处理’突发性应急事件J质量管理工程师
1.3负责突发性事件应急处理计划和对策的监督执行作业内容5远特科技应急预案组织结构图ES联理送艳吞主管1358178870S运堆工程师赵否痫金红主管平18500O480S0网络工Wi师谢的主管X,付雪凤故物库管理员从主管岳突发事件分类和应急处理
5.1基础设施环境不可用
6.
1.1包括运营商网络割接、机房电力、空调、线路接入等基础设施出现故障,且影响时间高于分钟的30对于运营商已告知问题原因时处理方案.提前通知相关运营人员和客户服务部
1.通告影响时间,影响范围
2.公告用户
3.调整域名解析,启用容灾机房4对于运营商未告知问题原因时处理方案.紧急联络机房接口人
1.了解故障原因,和影响时间,评估影响范围
2.紧急公告,启用预案同已知问题处理3设备不可用
4.
1.2服务器硬件故障、交换机及防火墙等网络设备发生故障,且影响时间高于分钟的故障30处理方案.通知相关运营人员和客户服务部
1.启用备份设备
2.分析故障原因,通知厂家售后3服务不可用
4.
1.3软件程序问题,且影响时间高于分钟的故障处理方案:
30.通知相关运营人员和客户服务部
1.回滚到上一个稳定软件版本
2.保存日志文件,分析定位问题原因
3.通知开发人员修正软件缺陷
4.测试通过之后重新上线5数据库问题,且影响时间高于分钟的故障处理方案30通知相关运营人员和客户服务部.L.提前建立数据库集群
6.从库出现问题,访问解析到其它从库上
7.主库出现问题,将一台从库提升为主库
8.定期全备份和增量备份数据文件9保存日志操作文件10遭受恶意攻击,且攻击时间高于分钟的故障处理方案:30通知相关运营人员和客户服务部.
1..在防火墙上操作内容2定期检查更新防火墙策略;屏蔽恶意IP;限制每秒的连接数.在服务器上操作内容3提前部署服务器;cache屏蔽公网访问核心服务端口;设定策略iptables.病毒入侵等情况操作内容4定期扫描系统和应用软件漏洞;定期升级系统;Patch利用云服务对于已经执行上述措施,仍无法抵御攻击的情况,将部分服务迁移到公有云上,利用云服务进行容灾正常业务量徒增
5.
1.4处理方案.和相关运营部门建立即使沟通机制,了解产品推广活动
1.购置富余带宽,用于抗峰值2IDC.将关键服务分布式部署3故障记录和备案
4.2建立【事件记录表】
5.
2.1分析故障原因,制定解决方案,避免相似故障再次发生
5.
2.2应急预案演练
5.3明确演练范围和参与人员
5.
3.1如果组织是第一次进行灾难恢复演练,不要尝试在演练中测试整个业务连续性计划,而应该选择计划中的一两个部分来进行测试多次小规模的演练比一次大规模的演练能够让组织获得更多的价值在明确了演练的范围后,组织需要确定演练的参与人员参与人员通常是与演练范围相对应的执行人员,同时也可以包括熟悉演练范围的管理人员预先明确演练范围和参与人员的好处在于,能够深入演练,加深理解,并控制规模当组织逐渐适应这种演练时,就可以开始进行复杂的、测试整个计划的演练了组建演练规划小组
5.
3.2这是一个关键的步骤,组织需要将一小部分演练参与人员纳入到规划小组中小组成员也可以包括非具体执行人员,但他们必须了解演练范围内的业务和流程规划小组至少应该包含一位公司高层,以增强规划的可信度设定演练目标
5.
3.3让规划小组的每一个成员都了解本次演练的范围,并通过讨论设定演练的目标组织第一次进行演练,目标应该设定在三个到五个之间一一尽量简化每一次演练并且,在测试过程中尽量让这些目标量化或者可视化以下是演练目标设定的一些例子•验证灾难恢复流程的有效性•验证应急通讯列表的可用性并及时更新•让高层管理人员熟悉他们的角色和责任•测试并提高员工的灾难恢复意识•验证恢复时间目标()RTO设计演练场景
5.
3.4灾难场景可以很简单,也可以很复杂它可能是简单的一次火灾,也可能是恶劣天气之后的一系列事件不论如何,该场景必须能够对预定的业务连续性计划某一(些)部分进行测试,并能够达到规划小组所设定的目标在创建场景的时候,可以思考以下几个问题场景是否可信?参与人员会相信该场景的可能性吗?该场景是否可能发生?是否能够获得一个积极的结果?是否足够简单?是否含有过于专业的术语以至于观众无法听懂?是否超越了参与人员的知识范围?场景解决方案是否过于简单?参与人员是否适合这一场景的设定?组织可以考虑使用一个曾经发生过的灾难事件作为场景,这一事件可能导致,或者曾经导致了组织的业务中断同时、组织也可以通过参考风险分析报告,选择一个最有可能发生的会影响到业务的事件当然,风险分析报告内的事件排序必须要被所有参与人员认可还有一个方法是设计一个会突出已知缺点的场景,这种情况下,需要在演练中引导参与人员,让他们逐渐意识到这些缺点设计灾难场景时,使用参与人员都知道的真实的地点,并使用城市、当地媒体、消防部门的名称,可以帮助提高场景的真实性在演练的过程中,主持人需要逐渐给出更多的场景信息,并引导参与人员进行讨论,这要求掌握好时机,并最终能够导出一个具有逻辑性的结论场景设计的一些例子包括•上午点分,大楼报出火警105•上午点分,火灾应急响应小组报告服务器机房起火1015•上午点分,部门经理报告一个小组成员尚未找到,可能还在火灾大楼里这1020些能够引起讨论的信息可以通过各种方式传递给参与人员,例如,可以发送到参与人员的地址,也可以现场发放复印件,或者只是主持人口头说明这些信息,不论Email选择了哪种方式,要适合参与人员,并且在加入时尽量使信息更加生动有趣设计演练评估清单
5.
3.5在明确了演练范围、设定好演练目标后,为了恰当地衡量这些目标是否达成,需要设计一份演练评估清单,用以在演练中跟踪和记录目标的达成情况评估清单应该包括评估者的姓名、需要评估的目标、评估的标准等,并为评估者预留出进行评论和做笔记的地方一份好的评估清单能够帮助组织•确保对演练进行很好的评估•突出与理想状态之间的差距•可以在培训和宣传中突出缺点•突出设施设备的不足之处•强调执行人员的支持和意见的必要性•强调持续维护和演练的必要性选择员工担任演练中的角色
5.
3.6灾难恢复演练中有几个基本的角色,即参与者、观察者、评估者和主持人,每个角色都很重要,并且需要在演练前进行相应的指导与培训参与者通常负责业务连续性计划特定部分的具体执行,他们不必参与到演练的规划观察者可以是组织中的任何人,只要他们对组织的业务或者流程有基本的了解即可这些人需要一直参与到演练中,并允许在演练的任何部分提出具有建设性的评论和意见评估者负责评估演练和填写评估清单,观察演练中的一个或多个目标是否达成主持人负责整个演练的管理、参与人员之间的沟通,提供额外的信息以逐渐推进讨论,负责演练后的总结,并完成演练报告召开演练前的指导会议537在演练实施前,召开辅导会议,向参与人员解释参与者、观察者和评估者的角色,允许他们提问,并为每一个人提供演练日程、地点和其它信息最重要的是要向参与人员明确一些基本规则,以帮助参与人员消除紧张情绪,这些规则包括•是整个组织在进行测试,不是某一个参与人员•学习业务连续性计划,并将演练当作一次培训•开诚布公地进行对话•尊重他人•讨论时不准用手指指着别人•不要期望演练能够解决所有问题•保持心情愉快进行演练后的总结538演练后的总结是整个演练过程中最重要的步骤之一总结会议应讨论并记录演练中观察到的优点、缺点,以改进、提升组织的业务连续性计划总结会议可以在演练后立刻举行,但更好的建议是放在演练后的一到两天,以便给每一位参与人员时间来整理和完善他们的反馈意见最终形成【应急预案演练记录表】。
个人认证
优秀文档
获得点赞 0