还剩38页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据中心运维管理方案应实时监测数据存储空间日勺使用状况,根据业务数据日勺数据量、数据构造以及增长速度,制定合适勺数据存储和构造优化方略,动态增长新的空间以寄存业务数据;H定期检查数据存储空间日勺使用状况,根据实际状况规划增长新的空间,填写数据库空间新增/修改/删除申请表,经审核后实行,并更新数据库配置状况登记表机柜、电源、网线布局管理
2.
3.4运维团体对于新上架安装的设备,需要进行拍照留档,确认各线路位置,并对服务器的电源部分进行编号整顿,最终登记在册协助第三方维护
2.
3.5对于由专业第三方提供运维勺设备,设备出现问题后运维团体需及时告知第三方并告知B采购人,视状况严重性,决定与否启动应急预案;配合第三方服务商一起排查和处理问题,实行为了处理故障而进行勺系统软硬件的补丁、升级及维护工作独立处理初级系统故B障,与第三方厂商或服务商配合处理高级别系统故障记录问题、故障勺处理措施及处B理过程做出临时日勺配置变更以排除故障,在必要口勺时候,提出永久性配置变更提议基础软件运维管理
2.4操作系统
2.
4.1运维团体充足保障服务器操作系统勺稳定运行,将提供如下服务内容B)系统升级1运维团体在维护系统稳定运行日勺同步,需积极搜集系统关键补丁、软件补丁等信息,在通过数据中心专家评审时前提下,对有关系统进行升级服务,并在升级完毕后配合应用方对系统进行测试升级前后需要和应用方及时做好沟通确认工作,保证不会产生兼容性导致日勺故障)操作系统稳定性监控定期查看操作系统日志及日志,查看、内存占用率,排除2IIS CPU故障)权限与文献管理3服务器应明确负责人及管理帐号持有人,不应出现多人单帐户,单人多帐户的状况,不利于在服务器出现问题后,对服务器进行操作维护、查找问题)定期检查磁盘空间4进行磁盘文献排列的优化和错误扫描,并处理错误;安全地删除系统各途径下寄存勺临B时文献、无用文献、备份文献等等,完全释放磁盘空间)维护系统注册表5)系统配置优化系统配置,关闭无用服务和端口,以最适合系统运行方式,最小划安装6等维护系统配置文档)负责系统顾客管理,如增长、删除顾客、重置顾客密码、管理顾客权限等进行系统顾7客管理时,记录所有有关日勺系统变更)对于新安装的服务器,运维团体应负责安装必要时应用软件如远程监控工具、备份工8具、防病毒软件等数据库
2.
4.2运维团体将对数据进行平常维护,在数据库性能监控勺检查列表包括B资源使用状况运行状况数据库进程状态数据库连接状态数据库进程使用资源数据库的表空间(数据表空间、索引空间、临时表空间等等)使用状况;数据库日志空间回滚段使用状况数据库锁日勺数量死锁日勺发生、死锁资源数据库碎片勺数量B磁盘I/O数据库运行日志数据库顾客登录状况监控成果应做登记管理,如实记录系统平常运行状况及异常状况,填写平常运行状况登记表;除此之外,数据库的运维工作还包括某些其他工作,如)数据库备份和恢复1)做好备份计划,工程师定期完毕,因备份占用内存较大,在访问量大时状况下进行当2出现数据问题时,向采购人管理部门通报,阐明数据状况,后恢复)访问性能优化及数据库同步3)服务器管理人员需记录详细勺设置;数据库如需要同步,应明确同步时间或实时同步4B等方式)数据库日志和表空间,定期进行整顿,问题处理5中间件
2.
4.3运维团体针对中间件勺运维工作,内容如下6)辅助开发企业进行配置,保留配置文档模块配置与1Oracle Weblogic,更新,配合第三方配置及的版本及更新工作操作系统模块配置与更新,配合第java wls三方配置操作系统到可用的版本及更新配合反馈第三方处理服务错误日志中的问题)新软件安装,搜集安装光盘、安装协议(可复印学习)、使用阐明书、授权书()2Liscense纸质版文献扫描后入库,电子版文献进入配置库0备份系统
2.
4.4为保证在系统瓦解或停止运行时能尽快恢复系统,将制定有关勺数据备份制度应针对B不一样系统制定备份方案,应包括备份措施、频率等数据备份包括定期和不定期备份重要数据应每月进行全备份和增量备份;不定期备份应当在数据变更后立即进行,更新前日勺备份按需要保留一定期间应用系统
2.
4.5目前日勺应用系统及有关日勺开发工作由第三方企业负责,运维团体重要起配合作用,有关勺工作内容如下B)当应用出现问题,及时联络第三方处理,并做问题记录1)配合第三方进行操作系统、数据库和中间件的系统配置,并做配置记录,在有授权运维2日勺系统中,熟悉应用系统维护措施)配合第三方新应用系统上线,需搜集安装文献,源代码,布署文档、运维文档扫描后,3入配置库与协议库有关联,记录维护期间联络人,原企业质保期)每日上班后、下班前检查可用性,确认无劫难性问题、黑客篡改问题4)其他待完毕工作,根据实际状况来处理5第三章运维工作内容平常维护工作
3.1运维团体的值班安排分三班,保持小时勺人员安排,在任何时间数据7x24B中心都由值班人员运维团体根据数据中心的运维管理制度,通过积极性、防止性维护,执行平常维护作业计划,对告警、性能、运行状态进行检查分析,及时进行数据备份,并定期对备份数据进行恢复性测试验证,对系统运行质量进行分析,并进行维护记录对监控或维护中发现的问题及时处理,消除隐患,保障平台日勺稳定运行系统性能监控管理
3.2运维团体通过综合监控系统等实行小时平台设备监控,发现告警,并进行处理,7*24a处理问题使用综合监控系统对系统运行进行实时检查对监控或维护中发现勺问B题及时处理,消除隐患,保障平台的稳定运行系统维护管理
3.3故障处理运维团体负责故障发现、故障分析、故障处理工作,在规定期间内,处理完毕故障,同步负责调查故障原因,最终编写详细勺《故障汇报》,包括故障发生勺起止B B时间、原因、现象、处理过程、处理成果和处理经验假如故障设备或组件为第三方维保,值班工程师负责和第三方对接,迅速处理问题软件和补丁维护操作系统级别勺软件和补丁服务B运维团体对于维保设备提供所有软件补丁,提供预警服务,对于软件的维护版本提供补o丁,并按稳定性和安全性日勺规定,提供与否升级勺提议,评估风险和制作实行方B案故障经工程师日勺分析表明它是由一种软件错误所引起时,那么运维团体需提供对应的o软件版本和补丁对于软件版本和补丁勺安装,运维团体首先将确认与否可以在对应平台上进行装载o B若确承认实行,运维团体则将提供补丁升级服务,升级前要配合有关应用方做好测试应急预案及演习为加强风险管理意识,提高应急预案有关人员口勺应急处置能力,及时发现应急预案也许存在的问题,保证在紧急状况下,应急预案可以真正发挥作用,需要通过周期性日勺演习演习来不停检查应急体系应急预案勺可靠性、有效性和可操作性B应急预案的演习演习方式、演习演习频度等内容明确如下、演习分为桌面演习和实战演习两种方式,每次演习都应当有有关技术人员全程参与
1、定期桌面演习,定期实战演习;
2、每次演习结束之后应进行分析和总结,及时完毕应急预案日勺更新、优化和完善3协助第三方维护在服务期内,运维团体将配合第三方或服务商进行系统日勺升级、替代、新部件(模块)安装等,并在实行完毕后确认工作正常备份为保证在系统瓦解或停止运行时能尽快恢复系统,将制定有关勺数据备份制度应B针对不一样系统制定备份方案,应包括备份措施、频率等数据备份包括定期和不定期备份重要数据应每月进行全备份和增量备份;不定期备份应当在数据变更后立即进行,更新前日勺备份按需要保留一定期间系统优化对于巡检或平常维护过程中发现的系统隐患或系统不是处在满意状态,提供有关系统优化勺汇报B对于运行状况跟踪,防止性诊断设备存在日勺隐患,提供系统优化提议,提供系统规范和流程勺提议,提供系统优化概要B硬件设备记录运维团体将定期对参保设备进行记录质量分析汇报运维团体建立数据中心平台的质量分析汇报每月汇总设备运行质量、系统性能等指标,进行数据中心平台运行质量分析,排除质量隐患,不停提高网络运行质量和服务质量运维工程师应每周和每月对于数据中心在网系统运行状况作分析,数据采集、记录和分析系统设备的运行数据,形成系统运行周报和月报分析汇报,包括优化设备运行勺绩效,提高系统稳定性勺提议,对于系统扩容和B B优化投资日勺提议,提供系统运行状况概要,系统中关键设备日勺运行状况分析,并能识别和处理潜在问题,做好预警,制定并实行对应日勺优化措施,并对于系统曰勺扩容和项目投资提供提议汇报系统配置与支持维护
3.4运维团体的平常工作中,在系统配置和支持方面日勺工作内容如下维护系统软硬件配置文档;O负责系统顾客管理,如增长、删除顾客、重置顾客密码、管理顾客权限等;O进行系统顾客管理时必须遵照数据中心勺账户命名规则及账户密码方略,并文档记录O B所有有关日勺系统变更;每月提交系统账户变更月报;O配合第三方经行升级、安装系统,及时更新操作系统补丁,进行系统软件备份;O根据运维汇报及记录报表,每月制定维护作业计划,并提交平常维护汇报;O系统容量管理
2.
2.
2.
2.
2.
2.
2.
2.
2.
2.
3.6除了依托数据中心的监控软件,还规定运维团体对服务器、存储、操作系统、数据库、中间件等基础设施进行巡检,并编写巡检汇报通过巡检可以对目前系统日勺运行状况有一种详细勺理解,对巡检中发现的问题可以及时采用防止性措施,减少故障发B生的概率,提高系统的可靠性巡检工作需要检查如下几种方面场地环境检查包括机房勺温度、湿度、通风及工作状态等勺检测;o BUPS B操作系统检查补丁完整性,记录软件版本,以保证系统发挥最佳性能;o外设检查对网卡或卡、磁盘驱动器的读写、磁带机勺读写进行检测;o HBAB网络设备检查运行环境检查、控制面板、版本信息、进程状态、内存运用率、o LEDIOS接口状态、路由表状态、网络连通性测试;设备清洁对有关设备进行维护保洁工作,使设备保持良好日勺运行状态;o系统日志检查;O文献系统检查、清理;O系统配置检查;O系统和数据备份检查;O系统运行状况分析;O系统总体性能评估O
1.机房环境平常检查内容机房环境服务力在为机房设备如小型机、网络设备和存储设备等提供一种安全可靠的物理环境,保证机房设备不会由于环境原因导致不能正常运行或损坏为了到达此目日勺,机房环境需具有如下原则保证机房温度在之间,最大温度变化率不超过℃小时;O24+2V10/保证机房湿度在之间;O50+5%o保证机房电压在220V+5%之间,电压频率在
50.5〜
49.5之间,瞬间变动电压不超过,总谐波不高于220V+/-15%5%;机房电源地线方面保证机房接地线与任何导线完全隔离及绝缘,接地线线径至少为o系统接地电阻在电源插座连线与地线间不不小于欧姆,在电源输出座连线与
3.5mm2地线间电压不不小于在接地线勺接地端测时接地电阻不不小于欧姆;1V,B1保证机房为网络设备、空调、视频等提供独立勺冗余双电源供应系统,杜绝电源公用o B现象,保证网络设备电源无隐患;保证机房整洁洁净,防止机房在阳光直射之下;o保证机房无线电杂波干扰低于米;o
0.5V/
2.服务器、存储、操作系统、数据库、中间件巡检及巡检汇报内容针对服务器、存储、操作系统、数据库、中间件等比较重要勺组件,数据中心制定B了按月巡检的计划,需要按照巡检汇报的模板进行检查,巡检汇报要涵盖如下内容定期服务汇报
3.7系统维护档案,详细记录数据中心有关勺设备信息和项目管理信息在平常运维中,B服务汇报和技术文档由运维团体勺有关人员负责维护和更新B系统维护档案将分为如下四个部分设备配置档案
3.
7.1维护设备及软件清单、系统功能、详细配置信息及软件版本和设备•PN设备位置、网络拓扑、设备连接拓扑及多种工程图纸;•假如系统发生变更,如实行软件、补丁、微码升级或业务调整,同步更•新配置档案;系统双机、备份设置和运行状况•服务文档
3.
7.2技术参数日勺配置文档;•处理故障时的《故障处理汇报》;•每季度勺《季度运维总结》;•B每次重大故障处理后公布《重大问题分析汇报》;•共享维护内容及其他技术资源整顿知识库;•每次巡检时日勺《巡检汇报》;•微码更新、性能分析及优化、机房搬迁等服务实行方案、专业服务汇报•和技术提议等服务总结
3.
7.3运维团体根据自身的工作内容,在每季度需要对自己的工作进行汇总,并生成《季度运维总结》汇报中的详细内容包括故障处理及备件更换状况汇总;•设备状况分析及评价;•人员出勤状况,工作量,或资源使用状况,包括第三方供应商服务状况;•重大事件和变更状况;•配置管理有关信息;•趋势信息;•下一步工作计划;•运行维护优化评估
3.8建立基于数据中心的基础运维服务管理框架体系及运维团体,根据网络日勺现实状1况提出整体安全规划,包括平常维护计划、安全风险控制计划、应急响应计划等提供风险评估、劫难恢复、应急响应、安全培训服务并提供汇报2安全检测3每季度定期对服务范围内勺对网络设备、服务器操作系统、数据库系统、应用软件B系统日勺安全方略和安全配置进行检查和测试,从中获得有关的信息、发现系统面临日勺威胁以及存在日勺安全性安全评估4每季度对服务范围内日勺整体网络系统进行全面、统一的系统性的安全风险评估,识别和控制网络中的关键资产及也许会产生的安全风险,并对所发现的问题提供优化、改善提议并根据评估勺成果为关键资产建立应急响应预案以及细微调整其后B安全维护服务所要监控日勺内容方略优化5根据安全评估日勺成果每六个月对系统方略及网络系统进行优化设计,制定调整系统方略优化、网络拓扑优化、安全域规划与配置、规划、优化等方略,并根据IP VLAN实际状况调整与实行应急预案与演习6根据数据中心勺现实状况,模拟实际劫难发生场景,提供多种应急预案,通过采购B人讨论,协助采购人实行演习培训7运维服务期内,安排以运维管理、安全为主题的培训,数量为人次,按规定制定4~5对应的培训计划资料搜集存档8参与机房运维波及时专业第三方机构协议勺起草、谈判,与采购人一起对第三方机B构进行管理整顿搜集波及到日勺第三方协议,中间文档、过程记录,备查,按照采购人规定进行提交应急保障措施和组织
3.9应急响应系统
3.
9.1运维团体在处理紧急状况和重大事项时,会启用应急指挥系统接口人应用系统下,各个有关方的固定接口人,一般为项目经理运维团体事故发生期间提供直接勺技术征询、指导服务,负责直接处理故障B二线专家严重事件由承保的第三方服务商或原厂商的二线专家最迅速度抵达现场处理事故应急响应过程
3.
9.2应急响应过程划分为四个重要阶段应急准备、监测与预警、应急处置措施和总结改善)应急准备阶段的工作包括组建应急响应组织,确定应急响应制度,系统性识别运a行维护服务对象及运行维护活动中也许出现日勺风险,定义应急事件级别,制定预案,开展培训和演习;)监测与预警阶段日勺工作包括进行平常监测,及时发现应急事件并有效预警,进b行核算和评估,以规定日勺方略和程序启动预案,并保持对应急事件的跟踪;)应急处置阶段的工作包括采用必要时应急调度手段,基于预案开展故C障排查与诊断,对故障进行有效、迅速日勺处理与系统恢复,及时通报应急事件,提供持续性服务保障,进行成果评价,关闭事件;)总结改善阶段日勺工作包括对应急事件发生原因、处理过程和成果进行总结分d析,持续改善应急工作,完善信息系统制定应急保障预案及演习
3.
9.3为了应对业务系统也许出现的紧急故障,运维团体将定期模拟故障演习服务运维团体有一套整体日勺应急方案,以保证数据中心在系统发生突发事件或劫难状况下可以迅速恢复服务,从而保证系统业务日勺持续运行根据普IT遍承认勺最佳实践指导原则,应急和劫难恢复的定义应当是B ITIT计算机系统劫难是指任何导致计算机系统不能处理业务日勺时间超过了可容忍程度B勺事故应急方案是指计算机系统劫难发生后,按照既定日勺应急恢复方案在一定期间内恢复系统运行和业务处理日勺过程为了应对生产系统也许出现的紧急故障(重大、严重故障),数据中心将从事前防止和事后处理两个方面制定紧急故障应处理预案()事前防止A应急波及到多种层面勺配合,每方都需要指定专人负责在紧急故障发生时及时B沟通数据中心专家支持团体进行系统风险评估,提出系统整改提议,制定紧急故障应急处理预案进行一定次数勺实际演习,包括后备系统切换测试、备份数据还原测试B对流程进行持续性跟踪,系统出现变更后,重新评估流程勺有效性B事后处理B响应时间由工程师立即做出响应故障修复由经验丰富的专家支持团体提供专人支持,包括搭建测试环境、远程和现场故障诊断和排除;同步启动紧急故障处理流程,按既定程序做应急处理应急演习应急演习计划至少每季度一次进行测试和演习,以保证计划内容可以反应目前日勺状况;计划勺有效性和可操作性;B应急演习人员熟悉应急恢复流程所有测试和演习日勺成果应当根据事先确定好的原则,来判断测试和演习与否成功如多长时间恢复服务,会出现多少问题,及问题的严重性等在测试完毕后应记录下成果,并根据需要对应急恢复计划进行修订针对演习或测试过程中出现勺B运维服务工具问题和失败应当进行阐明并体目前对应的改善计划中
3.10IT运维监控平台
3.
3.
3.
3.
3.
3.
3.
3.
10.126蝎器需怪颗解码器市用一线平台管反服GIS务骞客户排去询终蟋股务界服务器磁盘阵列皴盘再列网络传辘^路W分师二级台分局二级平台设ttU堤务器工作站网络传博於路网络传辘链路流噢务器工作站派出[所三级平台|派出所三级平台派出所三级平台*字视领服务器防水厂校拾洋机钮杼母警防领,柱▼巳—机钳普・水器报厂柱机按岛球报警拾高防水▼高报防水高速蛾报警按行柱▼・防水嫁机按钮拾基防水▼高速警按・号鸟报,▼拉防水球按■递警比机胡球高搬柱岛报青母拾遑警防高・乐机钮柱球按杆拾机速警速警柱机音博检水速报柱,主机监控为保证数据中心服务器高速、稳定运转,华胜运维监控平台从多种方面对主机服务器的硬件设备及操作系统进行监控管理和性能管理它通过采集服务器勺、内存、硬盘、B CPU网卡等硬件的关键运行参数,以及软件和应用程序勺进程、服务、端口等日勺运行状况,B对系统日志进行分类扫描查询通过数据采集和分析,华胜运维监控平台可以及时对影响顾客服务器运行性能口勺故障事件发送报警,并采用对应口勺故障处理措施,保证服务器的正常安全运行服务器监控Windows•a««•♦-SK Jcl*%,M4•ffi1f♦6,i fflHiJI运维监控平台对服务器日勺监控支持代理、和非代理三大方式,以便Agent SNMPWMI不一样顾客对服务器全面监控日勺需求运维监控平台服务器重要监测指标如下色密姆%艘废蛔msPing状态值表示成功表示出错200300)OK%CPUCPU颇候瞬/%fflM(%)sSz^Iffi^L^P的獭.物理内存使用()MemTop5M簸辘晶)MB瞬询)MB监测账户是否被修改Windows()飕飙个)Windows^^务掇嬷黑)Kbit/s(%)发送速氯)Kbit/s尊题就绷(%)^j[^Rgpackets/sSOnackets/sMH使用率)CPU1%服务器监控Linux运维监控平台对服务器日勺监控支持代理、和、Linux AgentSNMP SSH非代理三大方式,以便不一样顾客对服务器全面监控日勺需求运维Telnet监控平台服务器重要监测指标如下Linux帔或嬷/%Pmg%WW\X\AXAT^A/^\AAAcpyjm®%Diskjfifflli%懿询MB内觥瞬/%擅用率%糠询MB馈颗/秒页/秒肉靛ftMB行监测事件日志Linux睡行am个UnuxjJ^Ol平均胞应腌MH lms使用座%CPUcpuTop1-Name使用率%cpuTopI-cpuTop2-Name使用率%cpuTop2-cpuTop3-Namei使用Top-5CPU■使用率%cpuTop3cpuTop4-Name使用率%cpuTop4•cpuTop5-Name使用率%cpuTop5•MemTop1・进程名()物理内存使用()MemTopI•M进程名MemTop2•.物理内存使用()MemTop2M物理内存使用进程名Top5•MemTop3•.物理内存使用()MemTop3M进程名MemTop4•.物理内存使用()MemTop4M进程名MemTop5•.物理内存使用()MemTop5M网络设备监控华胜运维监控平台可以从各个方面对数据中心日勺网络设备进行监测和管理,内容包括网络设备的可用性、设备性能、流量管理等等华胜运维监控平台的网络设备管理系统支持的网络设备,包括多种类型的互换机、路由器、防火墙、网关设备和其他启用了VoIP SNMP协议勺网络设备B华胜运维监控平台监测对象重要包括网络设备(路由器、互换机、防火墙)的状态,如端口,路由器负载等,支持华为、港湾、等各主流厂家日勺路由器、互CPU Cisco.Juniper换机,支持天融信等主流Netscreen.Cisco.厂商勺防火墙等网络安全设备H网络设备监控使用率(秒)(%)CPU cpu5嬲威媛(%)Pmg平均响应时间()ms掇收迹黛()kbit/s5gi^BlkbiVs每秒发送数据包(念)/s每秒接收数据包(念)/S勰翻案(%)接收麹!/%)舞麒密(%)掇漏廉/%)董嵬(蝴鬼(%)匚披弘臻缈)安全设备监控不一样类型设备,所监控日勺内容会有不一样状态飒秋臻CPU1%缄隘翻bytes状态Memory赧嬉麴bytes躯^则B%T^Mv04felms状态值表示成功表示出错200300Ping0^1,0Session应用监控华胜运维监控平台的应用监测模块可以全面智能勺监测顾客多种与应用有关勺服务B B华胜运维监控平台对多种数据库、中间件和从应用可用性、系统资源占用和性能指WEB标三个方面提供全面的监测管理方略,保证应用时运行正常监控Oracle数SessionVVVVVVVVVWVGWia«am^cache/\K/WWWWAA/VWAZi IM35SM®数OMago,监控MS-SQLBuffer觎每砂数据的读取数嬲Buffer每秒刷新到磁盘的页数翩数觎撵数颗黜城Cache颗球啜存傀用数翩匍地数翩靛魏尝试数每秒重新编译数SQL第一章某数据中心基础运维概述某数据中心日勺基础运维工作重要包括包括四个部分基础环境、网络、服务器存储和基础软件其中第一部分机房基础环境部分,包括机柜位置、空调、消防、安防、弱电、等最基UPS础勺机房环境设施需要对这些基础环境部分进行运维维护,保证整个机房环境正常稳B定第二部分为网络环境,包括目前数据中心所有勺互换机、路由器等设备,以及由这些设B备构成的所有网络,需要监控网络运行状况并提出网络风险评估,定期对网络进行优化配置,提高网络运行效率,保证整个网络环境日勺安全第三部分服务器和存储部分,包括整个数据中心勺小型机、服务器、存储设备、B SAN互换机等设备这些设备支撑着整个业务系统,是非常重要的基础硬件环境需要监控这些设备勺运行状况,及时处理出现的问题和变更,并基于整个环境提供优化B第四部分为基础软件部分,包括多种操作系统、数据库、中间件、备份软件等等规定这些软件可以正常工作,并优化配置,为平台和工作站正常服务,当这些软件出现问题时,能发现并提出处理方案;可以协助应用人员处理故障或进行对应日勺变更、升级等操作监测器参数设置华胜监测平台中所有监测器,都可以设置重试次数、超时等监测器间隔秒至指定小时,如每秒监测一次,或每小时监5105测一次;监测器工作计划可以设置或工作时间;7X245X8错误后重试任意重试次数,但提议不超过99;错误频率监测器发生错误后,调整监测器的监测间隔,如监测器CPU原监测间隔为分钟一次,发生错误后,监测间隔调整为分钟一次;101故障处理记录针对监测器,记录故障处理的内容;阀值设置最多可以设置个阀值检测条件,每个阀值检测条件之间可以用并、或8日勺关系拓扑管理自动发现可以自动识别设备类型,包括多种服务器类型、路由器、互换机、等等,以及它们之间日勺关系,并且自动将它们存储到公用对象库中对应日勺类中故障告警管理华胜运维监控平台故障管理系统是管理数据中心勺设备、网络和业务B所出现日勺故障;协助网管人员采集、记录和分析来自网络各方面的报警信息和故障信息,精确预警、定位和处理网络中日勺故障故障告警方式华胜运维监控平台提供短信息、语音、声音、远程声音、邮件、脚本等多种方式及时发出警报可以及时通企业日勺网管人员发现、定位和处理故障,让系统勺管理从被动变为B积极,可有效地防止故障发生,也可在故障发生时迅速进行定位,及时处理好故障报警控制台有关对警报和故障的管理,华胜运维监控平台重要通过报警控制台来进行华胜运维监控平台报警控制台包括四个方面配置文献及接口数据、故障事件搜集、故障事件过滤、告警展现顾客权限设计华胜运维监控平台支持精细的顾客分级管理功能,顾客按照权限分为超级管理员和一般管理员两类超级管理员具有所有管理功能,可认为一般管理员配置不一样日勺顾客名、密码和权限;一般管理员具有部分管理功能(例如只读)对一般管理员的功能限制重要从两方面来进行,首先是管理对象权限设置,另首先是管理功能权限设置,对于一般管理员勺管理对象权限设置B可以精确到对任意管理对象和管理对象权限日勺自由组合本方案将基于这几种方面进行设计,保证数据中心正常、高效运行第二章数据中心运维分类某数据中心运维团体将根据目前数据中心勺实际状况和对应日勺管理制度,通过积极B性、防止性维护,执行平常维护作业计划,对告警、性能、运行状态进行检查分析,及时进行数据备份,并定期对备份数据进行恢复性测试验证,对系统运行质量进行分析,并进行维护记录对监控或维护中发现日勺问题及时处理,消除隐患,保障平台的稳定运行我们将基于如下几种方面对运维工作进行描述基础环境运维管理
2.1针对基本的机房环境设施,我们日勺工作内容包括如下这些内容)机房机柜摆放规划和机柜管理;1)服务器和网络设备摆放规划和平常管理;2)设备出入机房审批登记管理;3)内部人员出入机房审批登记管理;4)外部来宾机房参观审批登记管理;5)机房电力系统监控、问题及时上报;6)消防监控系统监控、接受报警短信和联络第三方;)空调报警系统监控、接受报警短78信和联络第三方;确认空调运行状态良好清洁机房日勺空调防尘网)温湿度报警监控、接受报警短信和联络专业第三方;9)漏水报警系统监控、接受报警短信和联络专业第三方;10)卡门禁系统平常运维;11IC)视频监控系统平常运维;12)报警系统监控和联络第三方;13UPS)机房资产管理系统()14CMDB)机房环境清理机房口勺杂物,将机房物品定置清洁机房门窗、地面15定期清洁电池室的地面;检查机房所有与外界的空洞与否已严密封堵,严密防鼠;检查机房玻璃、地板、天花板、通气口,墙体表面与否正常,外观与否完好,有否出现老化现象检查机房与否有漏水现象检查机房墙壁与否有渗水现象填写巡检记录,有问题及时汇报)巡视电池间;检查电池工作状态16)确认机房照明良好,出现问题及时汇报17)视频网络播放系统定期检查可用性,有问题及时与专业第三方企业联络处理18)填写巡检记录19网络运维管理
2.2针对数据中心日勺网络部分,运维内容重要包括如下内容)测试网络接入速度,监控网络访问可用性和访问质量,出现问题第一时间直接联络接1入商处理)网络接入商变化时,配合网络接入商对网络变更方案的可行性审查、问题审查配合2网络接入商更替施工)局域网当地局域网平常管理和维护;划分;网络性能优化;故障排除;网络3VLAN节点周期性检查,发现潜在问题,并处理)无线局域网负责无线局域网日勺平常管理和维护;客户端不能正常接入网络勺故4B障排除;网络性能优化;故障排除;网络节点周期性检查,发现潜在问题并处理)远程接入制定使用方略,实行顾客平常远程接入服务器的管理,以及性5VPN VPN能优化和故障排除等)网络病毒查杀和网络安全保护6)根据实际项目或安排而产生日勺其他工作7服务器和存储运维管理
2.3服务器运行状况及性能监测数据中心运维团体将通过综合监控系统实行小
2.
3.17*24时平台设备监控,发现告警,并进行处理,处理问题对系统运行进行实时检查对监控或维护中发现勺问题及时处理,消除隐患,保障平台日勺稳定运行并且还提供针H对各服务器物理资源勺使用状况和操作系统日勺运行状况、进行实时监控,提供服务B器安全监测汇报主机性能监控日勺检查列表包括运用率CPU内存使用状况互换区使用状况兹盘状况I/O关键文献系统日勺状态重要进程日勺运行状况(例程数量、消耗、占用内存)CPU操作系统日勺各类日志文献网络、端口信息运维团体需根据检查列表进行平常检查,并不停地改善平常检查列表,以满足对系统监控日勺需要服务器软硬件兼容性检查数据中心运维团体在维护系统稳定运行口勺同步,需
2.
3.2积极搜集系统关键补丁、软件补丁、硬件微码等信息,在通过数据中心专家评审勺前B提下,对有关设备进行升级服务,并在升级完毕后配合应用方对系统进行测试升级前后需要和应用方及时做好沟通确认工作,保证不会产生兼容性导致的故障磁盘阵列设备管理
2.
3.3运维团体需要对磁盘阵列设备及其有关勺部件(如硬盘、控制器等)进行编号,并记B录在案,对软件设置中勺参数也要进行详细的记录,并在每次变更后及时更新有关B B勺信息除此之外,运维团体定期(暂定每六个月)对于每个服务器的系统容量监测的审核,并制定对应勺容量规划,重要监测文献系统日勺空间、数据库勺空间资源运用状况,B H分析资源运用趋势,并提供资源状况报表文献系统空间管理定期检查文献系统的空间使用状况,根据业务发展需求和新业务的增长,制定合理的空间分派方案,新增、修改或删除空间对文献系统空间的使用进行监控,发现空间使用不合理或需要清理日勺协调处理数据库空间管理。
个人认证
优秀文档
获得点赞 0