当前位置:主页 > 成功案例 >

成功案例

case

服务器如何维修和故障诊断

时间:2022-05-16 00:49 点击次数:
  本文摘要:相对PC机而言服务器出故障的机率是小多了,可是它的故障给企业也带来了一些影响。作为服务器工程师除要有服务器基础知识以外,还需要具备服务器故障的诊断思路,这样才气最快速的解决问题也可以淘汰故障停机时间。本文并不是针对某个厂家服务器故障完全手册,而是凭据小我私家履历总结出来的一些履历思路另有一些总了案例。根据下面思路和方法基本上能够解决现在服务器更换式维修的大多数问题。

kok官方体育app下载

相对PC机而言服务器出故障的机率是小多了,可是它的故障给企业也带来了一些影响。作为服务器工程师除要有服务器基础知识以外,还需要具备服务器故障的诊断思路,这样才气最快速的解决问题也可以淘汰故障停机时间。本文并不是针对某个厂家服务器故障完全手册,而是凭据小我私家履历总结出来的一些履历思路另有一些总了案例。根据下面思路和方法基本上能够解决现在服务器更换式维修的大多数问题。

而且内里的一些操作风险性也不是很大,因为服务器自己就是坏的,最坏的情况下就是它一点都不能事情了呗,(主要确认是否有数据,数据无价啊)而且现在许多厂商都有自己的客服电话关于产物问题打个电话也很利便,所以放心做啦固然如果服务器在保修期内就打电话让售后工程师上门服务,究竟主顾就是上帝嘛,可是如果上帝比力着急使用,一般小故障自己解决一下就好了,因为一般报修最快都是第二天(大客户如银行等除外,一般当天还得是晚上才气停机解决)目录:一、服务器常见故障分类二、服务器常见故障现象及其对应排错方法三、服务器排错基本原则四、服务器故障需要收集哪些信息五、服务器硬件故障排错实例六、服务器软件故障排错实例七、服务器常见内存故障现象一、服务器常见故障类型分类:A.开机无显示B.加电BIOS自检阶段故障C.系统和软件安装阶段故障和现象D.操作系统启动失败E.系统运行阶段故障二、服务器常见故障现象及其对应的清除方法A.服务器开机无显示(加电无显示和不加电无显示)1.检查供电情况2.检查电源和故障指示灯(故障指示灯状态,现在许多厂商的服务器都有故障指示灯,或故障诊断卡等。)3.按下电源开关时,键盘指示灯是否亮、风扇是否全部转动4.是否更换过显示器,实验更换另外一台显示器5.插拔内存,用橡皮擦擦拭一下金手指,如果在故障之前有增加内存,去掉增加的内存实验6.是否添加了CPU,如果有增加CPU实验去掉7.去掉增加的第三方I/O卡包罗Raid卡等8.ClearCMOS(记得使用跳线来清除,只管不要直接拔电池,每款服务器清除跳线位置纷歧致,详细找不到电话联系一下厂商客服)9.实验更换主板、内存等主要部件10.清除静电,将电源线等外插在服务器上的线缆全部拔掉,然后轻按开机键几下B.加电BIOS自检报错1.凭据BIOS自检报错信息提示2.检察是否外插了第三方的卡或者添加部件,如果有还原基本设置重启3.做最小化测试4.实验清除CMOS5.看能否正常进入BIOSC.系统安装阶段故障和现象1.检察服务器支持操作系统的兼容版本(从厂商能查到兼容性列表)2.系统安装蓝屏(对蓝屏故障代码诊断)3.安装在分区花样化的时候找不到硬盘(阵列驱动没有安装或者没有设置阵列,可以实验适应引导光盘安装)4.大于2T的硬盘式应该如何分区(必须使用阵列卡才气实现或者有外插识别卡)(使用阵列卡设置阵列分成一个小于2T的空间,一个大于2T的空间,然后将系统安装在小于2T的上面,安装好系统后在使用GPT方式分区即可)5.安装历程是死机(检查兼容性列表---检察硬盘接口选择是否正确---阵列驱动安装是否正确---实验最小化设置安装检查是否为内存和CPU等问题)6.引导光盘安装失败(使用引导光盘安装失败,检察引导光盘版本是否匹配,实验手动安装系统,如有阵列重新设置阵列引导安装)D.操作系统启动失败1.在系统启动自检历程中有报错(详细检察启动报错信息在定方案)2.启动系统蓝屏(检察蓝屏代码核对)3.进入登陆界面死机(检察进入单用户或者宁静模式是否正常,进入BIOS是否正常、是否会死机,进入磁盘阵列检察阵列状态是否正常,检查测试硬盘是否有坏道,最小化设置启动)4.忘记密码 (windows使用PE破解,linux进入单用户破解)E.系统运行阶段故障1.安装数据库等应用软件报错(对系统版本和软件版本是否兼容,检察报错信息是否缺少插件)2.系统运行速度变慢(查杀病毒,检测阵列状态,测试硬盘有无坏道,重新安装系统或者修复)3.运行蓝屏(检察蓝屏代码目录)4.运行死机(检查进入BIOS是否死机,进入系统后测试部件温度是否正常,windows系统检察dump文件)5.硬盘拷贝数据文件速度变慢 (测试硬盘是否有坏道,如果有阵列检查阵列状态,检查改变条带巨细,与软件应用要求测试对比)三.服务器故障排错的基本原则:1.只管恢复系统出厂设置a:硬件设置:去除第三方厂商备件和非标配备件b:资源设置:清除CMOS、恢复资源初始设置c: BIOS、F/W、驱动法式:升级最新的BIOS、F/W和相关驱动法式d: TPL:扩展的第三方的I/O卡是否属于该机型的硬件兼容列表(TPL)2.从基本到庞大a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,视察故障现象变化并处置惩罚。b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。

c:软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。3.部件交流对比测试a:在最大可能相同的条件下,交流操作简朴效果显着的部件b:交流NOS载体,既交流软件情况c:交流硬件,既交流硬件情况d:交流整机,既交流整体情况总结:在服务器的维修中,线索都市显得扑朔迷离,有的甚至按起葫芦翘起瓢。

一般来说不行能一次就可以准确地判断出问题的所在。这样就要求工程师要有信心和耐心。

泛起错误一般的方法都是凭据履历优先使用最简朴排错方法测试,如果没有解决问题再找其它因素举行测试。总之,服务器堕落后必须一步一步解决,没有捷径可言。

四、服务器故障清除需要收集哪些信息1.服务器信息:①.机械型号:什么厂家的机械、什么型号如:DELL R720服务器②.机械序列号或主机编号(如:主机编号为NC00755666)③.是否增加其它设备,如网卡、Raid卡、内存、CPU等④.硬盘设置,如是否做磁盘阵列,阵列级别⑤.安装什么操作系统及版本(win2003、Redhat等)⑥.在故障前有没有做过操作、或者运行了什么软件⑦. BIOS版本2.故障信息:①.在POST自检时,屏幕显示的异常信息②.服务器自己指示灯的状态③.报警声和BEEP CODES④.系统的事件记载文件⑤. Sel日志五、服务器硬件故障处置惩罚实际案例(因厂家机型差别,在实际问题中如果遇到相似现象,也需要详细问题详细分析,请不要盲目套用)硬件故障是指服务器硬件泛起异常而导致的各种错误,由于服务器组成比力庞大,因此在检查的时候必须认真、仔细。实例一:有一台XXX型号服务器,配有256M内存,使用一个PIIIXEON 500带2M高速缓存的处置惩罚器。开机后没有任何显示,但系统日志上提示了一条CPU电压为0伏的信息,系统指示灯三灯不停在闪烁(指示灯三灯闪烁是服务器的另一种报警方式,我会在文后说明)。这种错误一般是处置惩罚器电压调治模块(VRM)堕落或CPU堕落或CPU与CPU板块接触不良,但也可能是CPU板块堕落,这时情况就比力庞大了,必须经由认真慎重的思考。

因为CPU板块在整个服务器中,占有举足轻重的职位,如果它堕落服务器是会报致命错误的,而且在系统日志中会提示致命错误,但报CPU电压报错的情况也有5%左右。我们连忙把CPU更换在另一CPU插槽中,开机后依然是适才的那种故障。

所以在开端判断中,可以清除是CPU板块坏。这时取出CPU仔细擦拭金手指,以及CPU板块中与CPU接触的地方后,开机依然无显示。

相对处置惩罚器坏的情况来说处置惩罚器电压模块(VRM)泛起故障的情况比力大。于是立刻在另一台同型号服务器中取下一个处置惩罚器电压模块,安装在此服务器中。

开机后,服务器依然没有任何显示,系统日志上依然提示CPU电压为0伏的信息,系统指示灯三灯依然不停在闪烁。这时的情况就比力显着了。于是立刻从另一台同类型服务器中取下一个CPU安装后,开机正常。

实例二:有一台XXX型号服务器不显示,发现开机时系统日志没有任何信息,且系统指示灯不亮。开端判断是电源方面泛起了错误。经由仔细检查,发现服务器的电源是正常的,因此最大的可能就是服务器的电源治理板泛起故障。更换电源治理板后,开机显示正常。

但这时,新的问题来了:自检时,用CTRL+M不能检测到硬盘。硬盘在此外服务器上是正常的,因此立刻清除此服务器的CMOS,但依然不正常。连忙上网找到此服务器的最新BIOS,升级BIOS后也不能解决问题。

又检查硬盘笼子和服务器里的数据线及电源线后依然堕落。这时,一般情况会怀疑是服务器的I/O板(输入输出板块)有问题。但就在这个时候,工程师发现在I/O板上有一个非XXX型号服务器标配的旧式网卡,立刻去除此网卡后服务器就一切正常。

硬件故障并不但单指硬件有问题,它也指硬件之间不兼容。因为服务器的正常运作需要各部件之间的鼎力大举协调。

建议大家在采购各元件时,都接纳同一品牌原装的,而且要接纳能发挥服务器性能的元件(上例中的旧式网卡纵然正常也会严重影响服务器性能),这样才不会发生莫明其妙的故障。实例三:用户需要把他的XXX型号服务器升级到双网卡,我建议他购置原装网卡,但当他看到XXX型号服务器的网卡是接纳的INTEL 82559芯片后,断然决议不使用原装网卡而接纳另一品牌也接纳INTEL82559的网卡。

过了几天,他打电话给我说,他的新网卡不能使用网络冗余及数据校验,并怀疑服务器有问题。工程师带了一个INTEL 82559网卡到用户那里,仔细检查了服务器的情况完全正常后,把INTEL82559网卡安装到机械上后一切正常。这个例子越发说明晰,要发挥服务器的最大性能及功效,必须使用原品牌原装的配件。

非原品牌非原装的配件,不能支持服务器的某些功效,严重的会影响到服务器的正常使用。要制止硬件故障发生频率,服务器治理人员必须注意服务器的使用情况完全正常。

比力重要的服务器必须在恒温、恒湿的情况;电压也要切合,不仅要接纳UPS,还必须接地线,必须是左零线、右火线,零地电压在1~3伏。在开、关服务器上必须切合正常的流程。事情人员必须严格执行操作流程。实例四:服务器故障现象:一台XXX型号服务器,近期频繁泛起频频蓝屏幕死机故障。

趁死机关闭的时机,将内存由原来的128M升级到512M(普通内存),而且在系统CMOS设置中选择装入(Load)最优参数设置,对内存每个单元举行检测。怪异服务器故障泛起了,当我开机后,内存检测正常,可是屏幕提示须重新SETUP,按指定的[F2]键后却死机。我装个内存条招谁惹谁了,怎么会死机?而且内存检测正常啊?服务器故障处置惩罚:服务器出了故障就要解决,哪怕是怪异服务器故障。

根据缩小故障源的思路,换回原来的内存条,逐步去掉各个部门(软驱、硬盘、光驱等),可是这个怪异服务器故障依然存在。分析可能与系统SETUP设置有关,特别是关于对内存每个单元举行检测的设置。于是,拔出电池,对电池插脚短接放电,没有奏效。

看来,这个怪异服务器故障还真是顽固。厥后,找到主板清除CMOS跳线设置,将插脚线由1-2改到2-3一会儿,然后恢回复位,开机正常(提示:不要轻易拔出电池,而是要找CMOS清除跳线)。再次将内存升级,调整CMOS SETUP设置,特别注意到对内存的检测,设置为检测到每兆,至此系统完全恢复正常。服务器故障履历这个怪异服务器故障发生的基础原因是服务器的内存缺省设置为ECC(带校验),由于使用普通不带校验的内存,而系统中设置每个单元都举行检测,所以导致了上面的故障。

清除的方法是清除CMOS设置,调整有关参数设置。另外CMOSSETUP装入最优参数设置通常有2种:一种是BIOS优化参数,这种参数稳定性最好;另一种是SETUP优化参数,优化整个系统,可是需要系统支持,其稳定性不能保证最好。所以,当系统泛起故障时,不妨先将稳定性最好的参数装入,解决问题后再行实例五:一台XXX型号服务器使用8708E的raid卡在读取某个文件或运行某个软件时经常堕落,或者要经由很长时间才气乐成,其间硬盘不停读盘并发出难听逆耳的杂音,这种现象意味着硬盘上载有数据的某些扇区已坏。

一旦硬盘有比力难听逆耳的杂音可以实验使用HD软件来测试硬盘时候有坏道,进入ctrl+H设置界面举行检察,阵列是否降级六、服务器常见软故障解决思路与实例服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的历程必须越发深思熟虑。导致服务器泛起软件故障的原因有许多,最常见的是服务器BIOS版本太低、服务器的治理软件或服务器的驱动法式有BUG、应用法式有冲突及人为造成的软件故障。下面划分举例说明各种软件故障的维修方法。

实例一:有一台XXX型号服务器,设置为双PIII500带521K高速缓存的CPU、512M内存。开机后,系统日志报电压调治模块异常(VRM)的错误,报错的信息是:“Voltage Regulator Module(VRM) over/under-voltage 2.88V/0V”。

从外貌来看,极有可能是服务器的电压调治模块或其它硬件泛起故障,极容易导致维护人员认为是硬件故障。维护人员连忙使用其它同类型服务器的硬件来测试,发现纵然使用新的配件,此服务器依然报VRM错。就在一筹莫展的时候,维修工程师带来了最新的CPU治理板(CPU Management Control)的固件(FIRMWARE),于是升级了CPU治理板块的FIRMWARE后,服务器恢复立刻正常。

FIRMWARE升级方法是每个厂家的服务器都有专门的firmware升级方法和软件,以遐想为例,一般需要使用PE或dos情况下使用专门的升级软件来使用,任何一款服务器的FIRMWARE及BIOS都市有差别的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS法式就很完善,最新的不是一定是最好的最稳定的才是最好的,在升级之前应该小心审慎,升级了错误的版本和使用错误的步骤会导致机械彻底的黑屏和瘫痪。现在盛行的中高等服务器都拥有强大的治理法式,为客户提供了利便的治理途径;服务器也拥有种种操作系统下的驱动法式,利便了客户在种种操作系统中的使用。

可是,世上任何一款法式都市有一些BUG,这些BUG将影响用户使用。可是服务器厂商总是会在第一时间内开发出新的法式,客户只需要实时更新这些法式就可以制止这类故障。当服务器的软件故障为此类时,体现的现象也不尽相同。一般来说,治理法式BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功效等;驱动法式的BUG会导致死机、与某些软件有冲突,磁盘事情不稳定等。

检察治理法式是否堕落的最好的措施就是在系统中首先克制此类治理工具,再视察服务器是否还是异常。由于治理工具是随着系统启动而启动的,所以应首先制止它的启动。

以WINDOWS NT4为例,就首先在治理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。如果是驱动法式有问题的话,就以宁静模式进入系统,看是否正常。可是需要注意的是,在宁静模式中,系统速度变慢是正常的(特别是磁盘I/O方面)。

服务器的维护人员就应该经常在服务器网站上下载最新的治理工具法式及驱动法式。这样会淘汰很大一部份软件故障的发生。相比之下,软件冲突造成的故障判断比力难题,需要治理人员有比力富厚的履历以及敏锐的视察力。

实例二:一位用户说,他有一台XXX型号服务器无法安装SQL SERVER 2000,已经重装N次NT了,清除是系统故障。而这唯一的服务器又将作为很是重要数据库服务器,因此很是着急。

于是维修工程师去了他的公司检察。这台服务器所在的机房是很是尺度、完善的机房,检查了这台服务器的情况,发现并没有硬件上的故障,于是清除了光驱读盘力差的可能。可是,用户刻的SQL SERVER 2000光盘引起了工程师的怀疑,工程师让他拿出了正版的SQL SERVER安装,效果还是不行。在安装的历程中,没有泛起丝毫错误,可就是在运行的时候会自动退出,没有任何提示。

可是,我在治理工具中的事件检察器的系统日志中却发现了一条信息:windata.exe导致一个无效的数据溢出。Windata是用户自己编写的一个法式,而且是随操作系统启动而启动的法式。立刻竣事掉这个历程后,再运行SQL一切正常。对于此类软件故障,操作员最好先检察有关的日志,看看系统中是否有可疑的历程。

现在的服务器无论是高端还是低端,对于SQL等尺度法式的支持是相当可靠的,所以清除的重点就是竣事可疑历程。另有一种软件故障是人为因素造成的,它一般是人为误操作(包罗没按操作流程的操作)、意外关机(包罗电源突然不供电)或非正常关闭应用法式造成的。

人为误操作因素只要增强治理都可以制止此类故障发生。在这里就详细说明意外关机或非正常关闭法式造成故障的方法。

正常关闭系统法式很是重要,尤其是WEB服务器,一个用户就是因为没有正常关闭系统法式而履历了一次数据损坏甚至丢失的履历。七、服务器常见内存故障现象实例服务器常用部件除了硬盘以外就是内存了,内存为服务器主要部件以小我私家履历来讲它一旦泛起问题不是很好来判断,因为服务器一般来讲都市由阵列功效的,一旦硬盘故障硬盘前面板会有指示灯,没有指示灯的在阵列的设置界面内里也会看到有降级或者硬盘离线的报错信息的。实在不行我们另有许多像HD等硬盘检测工具来给我们现场使用。可是内存不是很好来视察只能通过一些履历现象来判断。

下面列出一些内存常见问题现象供大家参考。常见故障一:开机无显示内存条原因泛起此类故障一般是因为内存条与主板内存插槽接触不良造成,只要用橡皮擦往返擦试其金手指部位即可解决问题(不要用酒精等清洗),另有就是内存损坏或主板内存槽有问题也会造成此类故障。由于内存条原因造成开机无显示故障,主机扬声器一般都市长时间蜂鸣(针对Award Bios而言)。常见故障二:Windows注册表经常无故损坏,提示要求用户恢复此类故障一般都是因为内存条质量不佳引起,很难予以修复,唯有更换一途。

常见故障三:Windows经常自动进入宁静模式此类故障一般是由于主板与内存条不兼容或内存条质量不佳引起,常见于高频率的内存用于某些不支持此频率内存条的主板上,可以实验在CMOS设置内降低内存读取速度看能否解决问题,如若不行,那就只有更换内存条了常见故障四:随机性死机此类故障一般是由于接纳了几种差别芯片的内存条,由于各内存条速度差别发生一个时间差从而导致死机,对此可以在CMOS设置内降低内存速度予以解决,否则,唯有使用同型号内存。另有一种可能就是内存条与主板不兼容,此类现象一般少见,另外也有可能是内存条与主板接触不良引起电脑随机性死机。常见故障五:内存加大后系统资源反而降低此类现象一般是由于主板与内存不兼容引起,常见于高频率的内存内存条用于某些不支持此频率的内存条的主板上,当泛起这样的故障后你可以试着在COMS中将内存的速度设置得低一点试试。

常见故障六:运行某些软件时经常泛起内存不足的提示此现象一般是由于系统盘剩余空间不足造成,可以删除一些无用文件,多留一些空间即可,一般保持在300M左右为宜常见故障七:从硬盘引导安装Windows举行到检测磁盘空间时,系统提示内存不足此类故障一般是由于用户在config.sys文件中加入了emm386.exe文件,只要将其屏蔽掉即可解决问题。


本文关键词:服务器,如何,维修,和,故障,诊断,kok官方体育app下载,相对,机,而言

本文来源:kok体育app官网入口-www.xjm888.com

Copyright © 2005-2021 www.xjm888.com. kok体育app官网入口科技 版权所有 备案号:ICP备84069051号-7

在线客服 联系方式 二维码

服务热线

016-88972616

扫一扫,关注我们