还剩24页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
IDC运维、监控工程师简章IDC运维、监控工程师简章金石飞拓EZSERVICE,是一家专业从事IT领域技术研发、面向全球客户提供优质网络系统服务和外包增值服务的服务提供商以“客户至上、质量第
一、诚信求实、创新进取”的经营宗旨,通过专业的定制服务,金石竭诚为客户提供安全可靠的IT服务,以解决运维难题,提高运维效率,降低管理风险,减轻管理负担,增加投资回报金石已经建立了以北京为核心,以华中武汉、华东杭州和华南深圳三大运营中心为支点面向全国及亚太地区进行业务辐射的庞大网络服务体系同时,金石也已成功进入中国台湾、香港、日本、北美等海外市场成立日期201*年3月员工总数近300人全球总部北京集服务规划、设计、实施、运维等整个生命周期为一体的,跨领域、跨平台、异构IT环境下的IT综合运营服务提供商团队逐年壮大,销售额逐年30%增幅IDC运维工程师招聘要求岗位职责
1、负责机房基础设施及机器设备的日常维护巡检,保持机房运行环境的良好状态,记录环境数据,总结成报表定期提交;
1.0有效期至签发日期备注业务部门一IDC日常运维操作1服务器及设备日常维护与故障诊断处理
1.1硬盘故障UDC在线服务器巡检故障表》》,信息如下百度根据第三方提供的《服务器机架位xxx-xxx-xxxx服务器SN号XXXXXXX服务器型号xxxx故障类型硬盘百度工程师根据周五的第三方巡检信息在星期一对硬盘故障进行处理处理过程,百度通过AOS发起外包任务,第三方在备件放置地点取出相应型号硬盘备件进行更换IDC的备件和坏件放置地点详见ODC备件坏件放置地点》,将换下来的坏件统一在每周四进行报修将处理结果反馈给发起的百度工程师,并回复完成邮件百度确认无误以后,结束任务
1.2内存故障第三方根据巡检报告提供给百度给内存故障的服务器信息,要素如下服务器机架位xxx-xxx-xxxx服务器SN号XXXXXXX服务器型号xxxx故障类型内存百度工程师根据第三方巡检信息来判断是否可以对硬盘故障进行处理如果可以处理,在备件放置地点取出相应型号内存备件进行更换,不同型号的机器有不同,如:DELL2850更换故障内存后需要用光盘清楚错误日志信息启动服务器,将结果反馈给发起任务的百度工程师,结束任务百度确认无误以后,结束外包任务第三方内存更换时间约定第三方更换内存过程所需时间(如30分钟),和工作区间时间(早上9点到晚上7点),如有特殊时间百度优先通知第三方
1.3Flash卡故障百度发起更换flash卡外包任务给第三方第三方根据任务单提供的详细信息进行确认停机从备件库取出新Flash卡进行更换,更换完毕将处理结果反馈给发起的百度工程师,并回复完成邮件百度确认无误以后,结束外包任务注故障Flash卡和新Flash卡需要记录SN号并提供给百度
1.4服务器重启第三方接到百度重启服务器任务单根据任务单提供的SN、主机名、机架位、IP进行核对找到机器进行重启操作,直到服务器进入系统登陆界面,将结果反馈给发起任务的百度工程师,结束任务,过程中有异常情况应及时反馈给百度工程师,仅限百度在线内部使用IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号
1.0有效期至签发日期备注业务部门百度确认无误以后,结束外包任务
1.5服务器其它硬件故障,如CPU故障、主板、电源需要第三方严格按照如下操作步骤进行操作第三方CPU更换时间约定第三方更换CPU过程所需时间(如30分钟),和工作区间时间(早上9点到晚上7点)百度给第三方提供存在CPU故障的服务器信息,要素如下:故障服务器机架位故障服务器SN号XXXXXXXxxx-xxx-xxxx服务器型号xxx第三方确认故障服务器已经停机,拔出电源线,按照顺序取出故障服务器里的硬盘将指定备机替换故障机器,并取出备机中的硬盘,清掉备机的raid卡里的raid信息(该操作步骤只限于DELL2850服务器)按顺序在备机中插入故障机中硬盘启动服务器将处理结果回复给发起的百度工程师主板故障同CPU故障处理电源故障同内存故障硬盘rebuild时间标准73G硬盘在线rebuild—3个小时,离线rebuild—1个小时;146G硬盘在线rebuild—6个小时,离线rebuild—2个小时;300G硬盘在线rebuild—9个小时,离线rebuild—3个小时;2服务器上线第三方根据百度要求把服务器上架到指定位置并反馈服务器SN
2.1自动安装百度配置安装文件仅限百度在线内部使用备用服务器机架位备用服务器SN号XXXXXXXxxx-xxx-xxxx开始操作时间18:00第三方根据巡检报告给百度提供存在CPU故障的服务器信息,第三方联系厂家报修,通报百度上面维修时间百度根据上门维修时间联系停机第三方确认停机以后由厂商来维修直至修好IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号
1.0有效期至签发日期备注业务部门第三方用指定的安装服务器进行安装,安装完成后进入到login状态,如下面仅限百度在线内部使用IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号
1.0有效期至签发日期备注业务部门仅限百度在线内部使用IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号
1.0有效期至签发日期备注业务部门仅限百度在线内部使用IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号L0有效期至签发日期备注业务部门中途如有安装存在问题的情况,联系发起人发起人远程进行单独安装安装完毕以后邮件反馈百度工程师百度确认完成以后,结束外包任务
2.2手动安装(光盘安装、保留/home分区安装)光盘安装根据任务单要求安装指定的光盘系统根据任务单要求配置IP和安装指定的工具包确认安装完成后反馈信息,等百度方确认百度确认无误后,结束任务手动安装用网线直接连接被安装机器和安装服务器的ethO端口(标记为NIC1)仅限百度在线内部使用IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号
1.0有效期至签发日期备注业务部门注意:DELL2950,引导时需要用NIC1连接安装服务器的ethO端口,引导完之后换到NIC2o pxe引导如有问题,需要检查机器的BIOS设置中的网卡设置引导服务器,当出现PXE引导时,按F12进行pxe引导,引导过程中会看到加载linux.llinux.2引导结束,会出现-bash提示符输入命令install-
1172.
18.
250.xxx-nfsl
72.
18.
250.10-nbaidu-123如果记不住可以通过install-h获取帮助命令行解释install是一个安装脚本,他会自动通过NFS方式连接到安装服务器上获取配置信息以及安装包共有6个参数,其中-i-nfs-n固定例子中的
172.
18.
250.xxx为本机临时IP,目的是与安装服务器建立连接,必需为安装服务器ethOIP的同网段IP
172.
18.
250.1为安装服务器ethOIPbaidu-123为被安装机器的主机名,install脚本会根据这个主机名在install,conf里面取配置信回车执行命令开始安装.当再次出现bash提示符后,安装完毕
3.服务器迁移操作流程由发起人发邮件确认可以迁移,并电话联系第三方现场人员确认开始迁移第三方现场人员接显示器确认系统已经关闭并进行迁移,把服务器迁移到指定机架位如果是跨机房迁移需把设备交给百度指定接收人(需出示有效证件证明身份),送达目的地点运送过程中需保证设备的物理完整性,不得随意拆开机箱并插拔或变更硬盘位置,如果有系统的,以能够进入grub界面为准.见图1将服务器接上电源线、网线,异地迁移需要根据新机架位的ip重新配置远程控制口的ip按电源按钮,启动服务器,确保进入如下类似界面见图1仅限百度在线内部使用IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号
1.0有效期至签发日期备注业务部门图1如果遇到异常情况,需立即通知发起人,由发起人决定处理方式第三方操作完毕回复发起人或指定复查人员进行检查,确保没有问题后,结束操作任务
4.服务器配置变更
4.1改变内存配置第三方在接到发起人停机通知后,将服务器电源线、网线、控制线拔掉并从机架上拿下放置在地上取得要更换或添加的备件内存容量、大小、数量信息请查看发起人发出的任务单参照《服务器硬件更换方法》来对内存进行添加、减少、更换把替换下来的内存放回指定位置把服务器放回原位置,接好电源线、网线、控制线,按电源按钮启动服务器
4.2改变硬盘配置第三方在接到发起人任务后,参照UDC备件坏件放置地点》取得要更换或添加的硬盘仅限百度在线内部使用IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号
1.0有效期至签发日期备注业务部门硬盘容量、大小、数量信息请查看发起人发出的任务单参照《服务器硬件更换方法》按指定要求更换硬盘具体要求请查看任务发起人发出的任务单如果需要重装系统,参照《服务器上线方法》安装系统参照《IDC备件坏件放置地点》把替换下来的硬盘放回指定位置操作完毕回复第三方操作完毕后,需马上通过邮件或电话通知任务发起人(如果电话通知的需要在之后补充邮件通知)检查由发起人或指定复查人员进行检查,确保没有问题后,向第三方邮件确认操作完毕,结束任务注换下配件不算成备件,需要单独记录并通报发起外包出库流程
5.增加/去除外网(对网线及设备连通性进行操作和排查)
5.1外网变内网在得到百度工程师确认后,第三方按任务中的接线方法,拔掉指定外网网线,插上指定内网网线
5.
2.内网变外网在得到百度工程师确认后,第三方按任务中的接线方法,拔掉指定内网网线,插上指定内外网线注FEX424外网边缘交换机的
1、
2、
3、
4、24不能连接网线操作完毕回复第三方操作完毕后,需马上通过邮件、电话通知发起人(如果电话通知的需要在之后补充邮件通知),检查由发起人或指定复查人员进行检查,确保没有问题后,第三方邮件向百度确认操作完毕,结束任务
6.接收和发送服务器,设备及配件
6.1接收设备外包将收到的服务器、设备及配件清点以后,将信息反馈给百度方并更新外包资产数据库,信息如下接收时间设备名称
09.
01.12xxxx
6.2发送设备序歹U号XXXXXXX存放位置XXX-XXX-XXX仅限百度在线内部使用IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号
1.0有效期至签发日期备注业务部门外包方根据任务单要求发送服务器及配件联系物流百度办理设备出入手续发出设备及配件,结束任务更新外包资产数据
7.根据百度需求进行操作
7.1根据需求反馈信息百度发起外包任务,如查看机器状态、SN、IP等第三方将查看信息反馈给百度方百度方确认以后,结束任务
7.2重启服务器等百度发起重启服务器的任务单第三方根据任务单提供的信息进行确认确认无误重启服务器,有异常情况及时反馈信息,重启以后通知百度方百度确认无误,结束任务
8.根据百度需求增加操作的内容根据百度需求增加IDC操作的内容仅限百度在线内部使用IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号
1.0有效期至签发日期备注业务部门二.日常网络操作
1.常见模块或交换机端口故障网络故障被定位属于这个范围后发起人根据【故障处理流程】发起操作,并通过邮件提供外包人
3、负责IDC机房设备上/下架,服务器的系统安装,如windows/Linux操作系统等;
4、作为监控人员和硬件厂商的接口,及时响应保修并解决故障;
5、IDC机房公司所署网络设备的备上/下架、安装及调试;
6、对IDC机房所有服务器及备件坏件定期检查、检修、替换和保修,建立数据中心例行检查和维护文档;
7、及时按要求撰写工作及技术文档;
8、配合资产管理,遵照流程进行设备调动,提供IDC设备信息;职位要求
1、大专以上学历
2、熟悉WindowsLinux服务器操作系统的管理维护shell、Perl、python等脚本语言的一种
3、熟悉主流网络产品配置(如ciscohuawei)
4、有相关工作经验;具有ccnaccnp资格证书或其他网络厂商认证证书;
5、有强烈的责任心,能够认真负责的完成任务
6、语言表达能力优秀,有一定的动手能力,为人踏实,能吃苦耐劳
7、能适应白班,夜班轮班工作及节假日值班
9、熟练使用wordexclevisio等办公文档者优先考虑
10、熟练掌握服务器(Dell和HP)、网络设备的故障排查、备件更换及报修流程H、能够吃苦耐劳,接受7*24的轮班制度
12、了解Apache,Jboss等Web应用服务器的基本维护
13、学习能力强的优秀应届毕业生也可考虑监控工程师招聘要求:岗位职责员相关机架位、网络设备名称、板卡槽位、端口号及模块型号,外包人员按照操作要求进行更换故障处理时间(10分钟-20分钟)
2.光纤或链路故障网络故障被定位属于这个范围后发起人根据【故障处理流程】发起操作,并通过邮件提供外包人员故障光纤的类型,两端机架位,对应网络设备名称,板卡槽位、端口号,外包人员在进行光纤更换时应该优先选用冗余光纤资源,如果没有冗余光纤资源则应立即按照【百度IDC布线标准】进行部署,并根据发起人要求进行标签标记(10分钟-20分钟)本机房光纤部署,故障处理时间,(15分钟-30分钟)跨机房光纤部署,故障处理时间,
3.外网边缘交换机整机外网边缘交换机(FoundryFEX424)故障被定位属于这个范围后发起人根据【故障处理流程】发起操作,并必须提供外包人员故障交换的机架位,之后外包人员根据如下步骤进行更换1)记录以下信息A.交换机的5端口至23端口的网线标签;B.交换机的24口管理网线标签;C.25口、26口对应的光纤标签;2)初始化欲使用的FoundryFEX424配置;初始化FoundryFEX424配置过程A.通过Console接入交换机B.enable进入#号提示符下C.Erasestartup-config>青除酉己置D.Reload重启交换机,选择不保存配置文件3)根据操作发起人提供的管理IP进行配置;配置管理IPA.使用enable进入#号提示符下;使用conf igureterminal进入配置模式B.使用如下命令配置管理IP仅限百度在线内部使用IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号
1.0有效期至签发日期备注业务部门interfaceethernet24port-namenetadminroute-onlyipaddress
255.
255.
255.0(管理IP由发起人提供)4)经发起人确认后进行更换;A.将故障交换机断电,并去掉所有光纤及网线,B.将新的交换机上架加电,并先接好网管网线5)外包人员经操作发起人同意后,依据要求进行光纤及网线互联;A.接入光纤时,光纤与端口对应关系必须与之前相同;B.原网线接入5口至23口时没有顺序要求,故障处理时间(20分钟-40分钟)本节中的故障处理时间指的是外包人员完成指定操作的时间,不包括发起人的故障定位时间,以确认开始操作计算时间
4.交换机板卡、引擎、电源故障
4.1板卡故障说明网络故障被定位属于这个范围后发起人根据【故障处理流程】发起操作,并通过邮件提供外包人员对应网络设备名称,板卡槽位,外包工作人员应首先记录故障板卡上的网线和光纤标签及端口的对应关系,具体,然后将板卡更换后检查板卡是否有自检闪烁,最后按照之前的记录恢复所有网线或光纤常见情况及处理时间如下
4.2光口板卡故障一般互联光纤数量不超过六条,更换前必须正确记录所有光纤与端口的对应关系板卡更换后,必须按照之前的记录顺序进行恢复故障处理时间(10分钟-30分钟)
4.3电口板卡故障一般互联网线的数量比较多,更换前必须正确记录所有网线与基于端口划分的VLAN的对应关系,板卡更换后必须按照之前记录的网线与基于端口划分的VLAN对应关系进行恢复如板卡的前24个端口属于VLAN100,后24个端口属于VLAN200,板卡更换后根据端口和VLAN的对应关系进行恢复故障处理时间(20分钟-40分钟)
4.4没有相应型号的板卡需要使用多台FoundryFEX424用万兆口级联后再互联至该交换机的指定端口(由发起人提供)A.外包人员初始化FoundryFEX424配置,并通过万兆端口进行级联,级联的数量由发起人给出;B.根据发起人提供的指定端口,将已经级联的FoundryFEX424与这个指定端口进行仅限百度在线内部使用IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号
1.0有效期至签发日期备注业务部门互联;C.经发起人同意后,将故障板卡的网线迁移到FoundryFEX424上D.最多级联两台FEX424如果超过2台FEX424,时间可以合理延长故障处理时间(20分钟-60分钟)
4.5引擎、电源故障说明网络故障被定位属于这个范围后发起人根据【故障处理流程】发起操作,并通过邮件提供外包人员故障网络设备名称,引擎或电源槽位故障处理时间(20分钟-40分钟)5操作规范说明
5.1模块的拆卸与安装过程说明
1.确定需要卸载的模块
2.若卸载业务模块,请注意先拔下模块拉手条上的以太网电缆、串口电缆或者光纤接头并放置在安全的地方并做好标记以便复原操作有光口的线路接口模块时,请不要直视光模块的TX端口和光纤线缆末端,以免激光烧伤眼睛
3.平行方向取出或插入模块,参加下图3T仅限百度在线内部使用IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别图37版本号
1.0有效期至签发日期备注业务部门
5.2板卡的拆卸与安装过程说明板卡拆卸过程
1.确定需要卸载的业务板卡
2.若卸载业务板卡,请注意先拔下模块拉手条上的以太网电缆、串口电缆或者光纤接头并放置在安全的地方并做好标记以便复原操作有光口的线路接口模块时,请不要直视光模块的TX端口和光纤线缆末端,以免激光烧伤眼睛
3.用螺丝刀松开拉手条两端的紧固螺丝
4.双手抓住拉手条两端的扳手,朝相反的方向用力,模块会自动脱出机箱少许
5.双手抓住扳手将模块垂直拉出大约10cm
6.右手抓住模块拉手条的中上部,左手托住模块下边缘将模块从机箱中完全拉出并放置在安全的地方
7.如果需要重新装入包装盒,请首先将业务模块装入防静电袋,再装入外包装盒板卡安装过程与拆卸过程相反,参考下图3-2图3-
26、板卡槽位及端口顺序
6.lFoundryFEX424,参加下图4T仅限百度在线内部使用IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别图3-2版本号
1.0有效期至签发日期备注业务部门三.机房巡检及通报机制
1.服务器故障巡检巡检范围IDC内所有的服务器;报警设备包括服务器、交换机、路由器、传输设备等完成时间在每天上午n点前整理出当天《百度**每IDC日巡检报告》发到指定邮件组巡检频率每天
2.动力环境巡检
2.1电力情况巡检对各个IDC的用电情况,精确到每个机架进行巡检记录,需要区别单路用电量(安培)双路用电量(安培)并将超过用电预警值(见日报模板)的机架做好记录巡检频率1天1次
2.2温度情况巡检对各个IDC温度情况,精确到每个温度采集点进行巡检记录将超过温度预警值的机架做好记录巡检频率4小时1次,每天至少2次并巡检时间由百度根据季节情况进行制定
2.3湿度情况巡检对各个IDC湿度情况,精确到每个湿度采集点进行巡检记录并将超过温度预警值的机架做好记录巡检频率4个小时,每天至少两次注在日报中对超出警戒值的记录用其他颜色区别展示;温度警戒值默认为33摄氏度,并由百度ARP根据季节情况进行调整;
3.IDC机架使用规范巡检确保设备的摆放正确;确保服务器的上架符合规范;确保网线,电源线的布放符合规范;确保IDC内没有纸质,技术文档及其他易燃物品;
4.IDC基础设施故障情况的通报和响应机制
4.1机架掉电仅限百度在线内部使用IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号
1.0有效期至签发日期备注业务部门在发现机架单路掉电或双路掉电情况后立即联系营运商现场值班人员进行处理,并在10分钟内通报百度第一紧急响应人;无法联系到第一紧急响应人立即联系第二紧急响应人;
4.2空调故障并将处理的过程或结果15在发现空调故障情况后立即联系营运商现场值班人员进行处理,分钟通报百度第一紧急响应人;无法联系到第一紧急响应人立即联系第二紧急响应人;
4.3温度异常在发现温度采集点实测温度达到温度警戒值的情况后,15分钟内通报当天百度该机房负责人,并联系营运商现场值班人员进行处理该内容需要在日周报告中体现;
4.4其他口(异常情况其他可能影响百度业务正常工作的IDC基础设施故障问题,需要及时进行通报;注紧急响应人第一紧急响应人第二紧急响应人四附录
1.IDC机房环境巡检记录模板IDC机房环境巡检记录模板城市提交人北京IDC名称提交日期201*-12-16巡检内容机房号前日15时巡检人本日10时仅限百度在线内部使用编号联系电话单路最高/机架双路最高/机架温度最高/空调湿度/空调巡检时间空调是否正常[J]是口否[J]是口否201*-12-1515:00空调是否正常机房号单路最高/机架双路最高/机架温度最高/空调湿度/空调IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号
1.0有效期至签发日期备注业务部门巡检人备注巡检时间[J]是口否[J]是口否201*-12-1610:
002.IDC在线服务器故障巡检记录模板IDC在线服务器故障巡检记录模板服务器型号故障核查人故障发现时间机架机器的SN号IP故障类型具体报警信息故障发现人
3.百度服务器坏件报修统计模板服务器型号xxxxx坏件名称硬盘坏件件型号XXX-300GB-00K坏件序列号XX-XXX-1253-7X-0296数量1对应的服务器SNxxxxx仅限百度在线内部使用
1、负责IDC机房的服务器、路由器、交换机、网络管理维护、网络安全管理及技术支撑;
2、对IDC机房设备做上下架、配置变更、网络线路调试等工作;
3、对IDC机房托管设备进行日常巡检、故障记录等工作;
4、对IDC设备及网络进行调整、维护、故障处理等工作;
5、负责IDC机房容量规划,并且前瞻性的解决IDC机房网络、服务器可能发生的问题;
6、对外负责与IDC运营商沟通等,解决相关问题;任职要求
1.有一定的IDC运维、服务器/网络设备运维经验;
2.具备CCNA/H3CNA证书或CCNP/H3CNE相关技能水品,具备RHCE或类似技能水品;
3、5*8或7*24岗位运维工作,工作态度认真、细致、负责,能承受较大工作压力;
4、学习能力强的应届毕业生也可考虑;专业技能
1、对IDC基础设施,动力环境(空调,电力,温度,湿度等方面)均有较为直观的认识,能识别和读取设备数据,能配合客户与IDC运维人员完成现场问题的协调、跟踪与处理;
2、熟练掌握服务器(DELL、HP及IBM其他品牌存储服务器)、网络设备的基础故障排查、维修、更换及报修;
3、对类limix操作系统有一定的了解,能对常用服务和系统配置进行配置和修改(包括但不限于修改Linux系统配置文件,文件扫描,修改系统gate wayroute,网络连通性问题排查,ssh服务,服务器远程控制带外管理等linux系统调试操作);
4、熟悉掌握二三层网络的常用技术,比如vlan、stp、acK ospf;
5、熟练掌握网络设备测量仪表的使用方法,能独立进行参数测量;
6、熟悉主流网络设备的操作命令,能在网络设备上进行简单的配置和状态查询,根据网络设备指示灯的状态确定网络设备运行状态是否正常;IDC现场运维手册文件编号生效日期201*年02月25日签发人保密级别版本号
31.
144.1板卡故障
144.
1.0有效期至签发日期备注业务部门
172.2温度情.......况巡检
174.
184.3温度异。
个人认证
优秀文档
获得点赞 0