预防服务器宕机 你知道该怎么做吗?(1)上海时时

积极主动 防患于未然

除尘是一种老式的清洁过程,但这并不意味着其已经过时了。除尘器是一种绝热材料,这使得这一过程更为重要,鉴于替代冷却方案和ASHRAE建议数据中心适当提升数据中心的操作环境温度。灰尘和其他气流障碍物将导致服务器会消耗更多的能量,甚至会引起原来可避免的过早的组件故障。

(4)还有一个因素是需要我们注意的,那就是无线电和磁场的干扰场强,这个在设置的时候要根据规定的大小。

最后要记住:问题难免会发生。如果你制定了一项灾难恢复计划,并且对员工进行相应的培训,知道何时联系支持人员、如何联系,就有助于缩短任何服务器故障所引起的停运时间。

积极主动的跟踪日志数据。当通过对日志的检查发现长期或经常性的问题时,积极的调查可以在问题升级之前解决问题。例如,如果服务器的日志报告内存模块中存在可恢复的错误,其将不会触发关键警报。但是,重复的实例会显示模块出现问题,IT人员可以执行更详细的诊断来识别即将发生的故障。

数据中心后期的维护是很重要的,对环境的要求也是很严格的,当然这些设备需要适应相同的环境,这样维护起来会更方便。

制定灾难恢复支持计划

数据中心的服务器只是复杂一些的机器。与任何其他机器一样,这些服务区也同样需要定期性的维护,以便达到最佳性能。而通过简单的维护程序则可减少发生严重故障的可能性,进而延长服务器的使用寿命。

part 3:数据中心机房的维护方法

预防性维护主要包括三项工作:仔细检查错误日志,查找固件或软件的更新版,以及跑到机房去检查。Peters表示,他公司对错误日志每年检查一两次。他解释:“我们有没有哪个硬盘开始将错误记入日志?我们有没有哪只风扇的转速没有达到应有的水平?我们有没有哪块光纤网卡开始出现一些问题,一些错误被记入了日志?如果有的话,那么我们就能积极主动地更换,以免相应部件出现故障。”

为打补丁和更新腾出时间

上海时时乐走势图 1

...

同样,有必要针对系统脱机及其在稍后返回服务制定一套明确的计划。在虚拟化出现之前,服务器及其之上的应用程序将需要停机以适应维护窗口——这通常会迫使IT人员需要在夜间或周末进行维护。虚拟化服务器支持工作负载的迁移,而没有停机时间,因此您企业数据中心可以将应用程序迁移到其他服务器,并且任何时候当底层主机系统在发生服务器维护时,它们都将保持可用状态。在执行维护服务之前,请务必清楚的知道虚拟机应该迁移到哪里,将虚拟机迁移到选定的系统,并确保每项工作负载正在运行,然后再将服务器关闭进行维护。

【编辑推荐】

为了让你的服务器在最佳状况下运行,你需要保持合适的环境、积极主动地维护和监控,并且制定一项计划,那样万一服务器果真出现了故障,员工知道该怎么做。

磁介质是不完美的;常见的问题包括坏扇区和碎片。在保持数据完整性方面,RAID有了很大的进步,但是较小的1U机架式服务器不能提供足够的物理空间来部署磁盘阵列。使用诸如CHKDSK(检查磁盘)等实用程序等工具来验证磁盘的完整性,并尝试恢复其上的任何坏扇区。 Windows Server 2012的更新版本的CHKDSK可以快速分析和修复文件系统结构中的磁盘问题。

  1. 年维护主要内容:

你在检查错误日志时,正好也可以趁此机会,重新检查一下服务器上的固件和软件,确保没有漏掉任何重要的更新版。TERiX公司的销售和营销专员Larry Quinn说:“要清楚地了解你有什么样的系统,在上面运行的操作系统使用什么样的补丁版本。如果你在资产和补丁管理方面偷工减料,短期来看节省了费用,但是保证会增加长期费用。”

在您数据中心列出亟待维护检查的服务器清单项目之前,请务必先行制定一套计划。这包括检查系统日志,看看是否需要更直接的把关注焦点放在任何错误或事件上。例如,如果系统日志显示特定内存模块的错误,您应该订购一款替换的DIMM并将其安装。同样,如果有固件、操作系统或代理补丁/更新可用,请先在维护窗口之前先检查,并打好这些补丁。

如果发现系统工作不正常,可以观察硬件状态指示灯的情况。开机后系统将自动完成自测试,诊断及引导启动代码。

保持良好适宜的机房环境

最后,一旦服务器重新联机,不要忘记更新任何系统备份或灾难恢复(DR)内容。验证服务器的备份/ DR位置或频率是否保持不变,除非这些相关设置需要特别调整以反映服务器的变化角色。

进行操作系统的关闭(shutdown -h -y 0)-> 关闭主机电源.-> 关闭外设电源.(如磁盘阵列,磁带库等)-> 关闭其他设备电源和机柜电源;-> 最后关闭总电源。

TERiX公司的营销专员Christiana Johnson说:“确保寻求支持的途径对于每一个IT员工来说都很容易。这可能包括,备一份时常更新的打印下来的所有维护合同和联系人号码以防你的维护问题包括停电故障或灾难管理事件),明确指示要是哪一个平台、品牌名或原始设备制造商OEM)产品出现故障,应该找哪个有关方或联系人。”无论你的支持直接来自OEM厂商还是来自第三方,都要立马联系对方,这有助于你尽快让服务器重新恢复运行。

此时,通常可以关闭服务器,并将其从机架或其他机箱中删除卸下。

  • 周、月维护所有内容;
  • 清洁机房空调的过滤网,检查空调运行情况,必要时补充制冷剂;
  • 按操作规程对蓄电池进行完全的充放电维护;
  • 对接收天线进行全面性能检查和维护。

在下一次计划的预防性维护到来之前,你应该使用监控解决方案,以便服务器开始出现问题时,你能够第一时间收到警报。现在市面上有种类繁多的复杂性和价格不一的解决方案,所以你需要做一番比较,找到最适合自己需要的那款解决方案。

没有任何一款生产软件能够自动更新。管理员应首先确定是否需要打补丁或更新升级,然后再进行彻底的评估和更改测试。如果更新解决的是您的服务器原本没有的问题,那么为什么要冒着创造出其他问题的风险呢?

4. 消防设备维护:检查火警探测器、手动报警按钮、火灾警报装置外观及试验报警功能;检查火灾警报控制器的自检、消音、复位功能及主备用电源切换功能。

大型数据中心大多有先进的设备来监控数据中心的物理状况,但是许多比较小的公司其服务器机房并不是处在适当的温度或湿度范围,或者没有做到应有的干净。TERiX计算机服务公司的营销专员Joe Guenther指出:“系统在过热、过湿、灰尘过多的环境下也许仍可以运行,但是它们绝对达不到应有的使用寿命,而且较之于在建议的环境状况下运行,更容易受到环境条件的影响,因而频出故障。”

许多服务器依靠内部硬盘进行引导、工作负载启动和存储,用户数据和其他功能。磁盘介质问题严重损害了工作负载的性能和稳定性,往往导致磁盘过早出现故障失效。

3. UPS及电池维护:根据实际情况进行电池核对性容量测试;进行电池组充放电维护及调整充电电流,确保电池组正常工作;检查记录输出波形、谐波含量、零地电压;查清各参数是否配置正确;定期进行UPS功能测试,如UPS同市电的切换试验。

如果采用预防性维护和合适的监控软件,就可以避免或减少另外的许多服务器问题。SEI服务公司的产品支持经理Chad Peters说:“你可以在问题还没有出现之前及早发现。”

确保服务器可以“呼吸”

(2)其次就是温度和湿度一定要控制好,严格控制在规定的标准范围内。干球温度计要在20℃到25℃(68F~77F)之间,相对湿度要在40%到50%之间。

每个有汽车的人都知道,定期更换机油和更换轮胎有助于汽车行驶更顺畅、寿命更长久,从而保护现有投入。同样,采取几个预防性措施也可以帮助数据中心的服务器运行更顺畅、寿命更长久。而更为重要的是,这些措施有助于防止服务器出现停运;在一些情况下,服务器停运很快就会导致蒙受巨额经济损失。

准备好一切

硬盘,软盘,磁带机及光盘驱动器自检时,能从前面板上看到相应的灯亮一下,表明系统已经识别到上述设备。相反,如果某驱动器的自检灯没亮,很可能是该设备有问题。

污染控制服务公司的数据中心服务部门经理Mark Gonsalves表示,数据中心应该排好每季度清洁一次的时间表,地板下面每年至少要打扫一次。他说:“环境越清洁,数据中心运行起来越顺畅。”他补充说,确保环境清洁意味着,没必要更换成本高昂的设备。他表示,要是你的数据中心环境特别脏,一些硬件制造商会宣布硬件保修无效。

检查本地硬盘

  1. 电缆连接注意事项

预防性维护还应该包括跑到数据中心去检查,确保所有线缆连接到位,确保空气流动管理设备仍然在原位,确保机房保持应有的清洁程度。

即使具备现代服务器的性能和冗余功能特征,增加的工作负载整合和可靠性预期也可能对您的企业的业务造成损失。故而您数据中心的服务器维护清单应涵盖相关的物理元素以及系统的关键配置。

part 5:机房维护需要注意的内容  

坚持常规性例程

每次开机后,系统都会进行硬件自检及初始化,假如系统出现硬件故障,一般都不能正常启动,并在液晶显示屏及控制台上相应的显示出错误代码及出错信息。

【编辑推荐】

数据中心的机器比较多,散热问题需要注意,要有制冷系统来稳定机房内的温度。当然,要想维护好数据中心,还有很多的小细节需要我们注意,以上几点是我们比较常见的,我们在工作过程中可以根据自己的情况,做好其他的小细节。

核实并记录任何更改

2. 机房监控设备维护管理:供配电监测系统、温度环境检测系统、门禁设备系统、保安监控设备。

上海时时乐走势图 2

part 1:维护机房的目的  

服务器管理员们经常忽视计划性维护窗口。不要等到实际发生故障运行失败时才来进行维护;请务必预留出足够的时间用于日常的服务器预防性维护。

  • 周、月、季维护所有内容;
  • 清洁各设备的电路板和接插件;
  • 清洁各监视器和计算机内部;
  • 检查调整信号源和设备测试口的电平及性能指标;
  • 检查调整各监测、报警系统的门限阀值。

磁盘碎片不会消失,只要具备NTFS和文件分配表或FAT,文件系统使用磁盘空间首先可用的集群。碎片可能会降低减缓服务器的磁盘的运行,并导致故障。Windows Server 2012下的Optimize-Volume等实用程序会将每个文件的集群连续排列在磁盘上。

分析这四位代码可以进一步检测出故障。发现这种问题,请马上与HP联系,分析相应的故障原因。

维护的频率通常取决于设备的使用时长、数据中心的环境、所需要维护的服务器的数量等因素。例如,位于设备机柜中的旧设备较之被部署在一款HEPA过滤的,冷却良好的数据中心中的新的服务器就需要更频繁的检查。企业组织可以根据供应商或第三方提供商的例程实施日常维护计划;如果供应商的服务合同每四到六个月要求进行系统检查,则按照该日程进行安排。

  • 清洁机架内外、设备面板和监视器、显示器屏幕;
  • 检查个切换开关功能键、监测报警系统的功能及各设备指示状态;
  • 检查机房供配电系统;
  • 检查机房空调和照明设备。

请检查报告设置,并验证恰当的警报和警报接收者。例如,如果某位技术人员离开了服务器管理团队,则需要更新服务器的报告系统。仔细检查联系方式;如果错误发生在工作时间之外,则仅仅只向技术人员的企业电子邮件地址发送发生严重错误的报告可能是完全不够的。

注意计算机及各外设之间连线接触良好,不要无故拔插电缆;如果发生计算机不能识别某个设备,有可能是电缆的接触问题。

在诸如硬件,软件,系统配置更改的维护窗口中,服务器可能会发生很多事情。完成服务器维护清单后,IT员工必须验证和记录任何新的系统状态。例如,更改了网络适配器,添加或更换了DIMM,更新了操作系统和许多其他操作可能会改变系统的配置。依赖于系统配置管理工具的企业组织可能需要更新或“发现”更改——在系统允许恢复使用之前将这些更改记录到配置管理数据库。IT人员可能需要更新任何强制或期望的状态配置状态,以允许更改。

(3)另外一个因素是噪声和照度。主机房中心的噪声保持在65dB(A)以下是正常的一个范围,照度是距地0.8米处应该高于300lx,辅助房间的要大于200lx。

还要验证系统安全状态,如防火墙设置、反恶意软件版本或扫描频率和入侵检测/预防(IDS / IPS)的设置。安全检查可以帮助确保对系统软件的更改不会无意中暴露任何可能在先前配置中已关闭的攻击面。

7. 机房运维管理体系:完善机房运维规范,优化机房运维管理体系。维护人员24小时及时响应。

从外部空气的入口和出口开始,然后深入系统机箱,查看CPU散热器和风扇组件,内存模块和所有冷却散热风扇叶片和风道通道。用干净、且干燥的压缩空气适当清除静电安全工作区上的灰尘或碎屑。不要在机架上清洁服务器。

  1. 硬件故障诊断

服务器在事件日志中记录了大量信息,特别是有关问题的详细信息。如若没有仔细检查系统、恶意软件和其他事件日志,那么,服务器维护检查清单便是不完整的。当然,关键系统问题应该会第一时间引发IT管理员和技术人员的关注,但从无数的小事件的积累中可能会发现长期而严重的问题。

4. 机房消防设备维护管理:烟感热感探测器、手动报警按钮和报警控制器、灭火器的控制装置。

软件开发人员不可能测试硬件和软件的每个潜在组合,因此修补程序和更新可能会导致比您的特定服务器或软件堆栈修复更多的问题。例如,监控代理补丁可能会导致重要工作负载的性能问题,因为新代理会占用比预期更多的带宽。

5. 电路及照明电路维护:镇流器、灯管及时更换,开关更换;线头氧化处理,标签巡查更换;供电线路绝缘检查,防止意外短路。

一旦服务器脱机,可以直观地检查其外部和内部的气流路径。清除可能会阻碍冷却空气流通的任何积聚的灰尘和其他碎屑杂物。

  1. 开机顺序

转向 DevOps,借助更小的和更频繁的更新会加剧潜在的问题。在部署之前,仍然需要在实验室中测试任何补丁或更新。并且始终确保可以撤销更改,并在必要时恢复原始软件配置。

1. 机房主机设备维护管理:计算机服务器(包括PC服务器及存储服务器);网络设备(交换路由设备等)。

服务器的软件堆栈——BIOS,操作系统,虚拟机管理程序,驱动程序,应用程序,支持工具——都必须进行互动和协同工作。不幸的是,软件代码很少是完美无缺的或无问题的,所以这些软件经常需要被修补或更新,以修复错误,提高安全性,简化互操作性和提高性能。

  1. 关机顺序

阅读事件日志的附属细则

  1. 机房空调与配电设备维护管理:空调设备、新风设备、UPS电池、主配电箱。

企业数据中心定期计划性的进行服务器维护可以防止发生大的问题,并保持一切正常运行。因此,数据中心管理人员们务必要为服务器的硬件和软件执行简单的检查腾出时间。

数据中心机房是企业信息数据汇集、转发的重要场所。企业的协同办公系统、财务系统、营销系统、等重要系统的服务器都集中在机房,所以企业对计算机机房的稳定性、可靠性、安全性要求较高。一但电力系统、网络系统、服务器等出了故障,造成业务终端,造成的经济损失是不可估计的。

2. 机房空调及新风维护:检查空调运行是否正常,换风设备运转是否正常。从视镜观察制冷剂液面,看是否缺少制冷剂。检查空调压缩机高、低压保护开关、干燥过滤器及其他附件。

  1. 季维护主要内容:

在进行电缆连接(插拔)时,最重要的一点是,通过该电缆连接(或将要连接)的设备应当是没有加电的,即应当先将设备的电源关掉,然后再进行电缆连接(插拔)操作。否则,如果带电进行电缆连接,会造成对设备无法预料的损坏。

另外,主机背后的SCSI接口卡及网络接口卡上的自检指示灯亮为正常状态。否则,可能该接口卡有问题。如果发现这种问题,请马上与HP联系,考虑更换备件。

(1)电缆连接

一般地说,系统开关机应严格遵循以下步骤:打开总电源-> 打开计算机机柜电源-> 打开外部设备电源(如磁盘阵列,磁带库等)-> 待外部设备自检完成后,最后打开主机电源.

part 6:数据中心机房维护计划

  1. 机房供水水路、电路及照明维护管理:水电路管线及接口的检查维护。

6. 机房基础维护管理:机柜线路的整理、标签检查更换、机房除尘清洁、防火地板、墙面、吊顶、门窗及相关配套的维护管理。

保障机房设备正常运行,对机房环境支撑系统、电力系统、监控设备、计算机主机设备定期检测、维护和保养,保障机房设备运行稳定,降低故障率。确保机房在突发事故导致硬件设备故障,影响机房正常运作情况下,可及时得到设备供应商或机房服务维护人员的产品维修和技术支持,并快速解决故障。保障机房设备稳定运行,并通过保养延长设备生命周期,降低故障率,下面将服务器机房的维护方法与大家分享。 

若屏幕上出现ERROR且液晶显示上出现FLT,表明有故障发生,应根据上述提示确定故障点。

检测顺序大致为:高速缓存,中央处理器,总线,内存,I/O设备。当检测到相关的硬件时,对应的显示灯会亮。

(3)错误代码

  1. 月维护主要内容:

数据中心是全球性的特定网络,主要作用是传递、加速、展示、计算和存储Internet上的数据信息的。数据中心的服务器数量可以有很多,但是它又不仅仅只是包含了很多的服务器,它还包含了各种各样的数据通信存储、各种监控和安全设备等,内部是比较复杂的。

1. 机房除尘及环境要求:定期对设备进行除尘处理,清理,调整安保摄像头清晰度,防止由于机器运转、静电等因素将尘土吸入监控设备内部。同时检查机房通风、散热、净尘、供电、架空防静电地板等设施。机房室内温度应控制在 5℃~ 35℃,相对湿度应控制在30%~85%。

6. 机房基础维护:静电地板清洗清洁,地面除尘;缝隙调整,损坏更换;接地电阻测试;主接地点除锈、接头紧固;防雷器检查;接地线触点防氧化加固。 

  1. 周维护主要内容:

 

part 2:维护内容  

(2)硬件状态指示灯

part 4:机房服务器日常维护步骤

绝大部分硬件错误都能在自检时暴露出来,在液晶显示及控制台的左下角都有四位错误代码:FLT xxxx。

  • 周维护所有内容;
  • 整理各机架设备连接线;
  • 检查服务器配置情况;
  • 检查交换机各个端口工作状态;
  • 检查服务器运行状态并记录;
  • 检查各光发射、接收设备的工作状态。

(1)首先是一定要远离腐蚀性气体和易燃易爆物体,因为这些气体会随着机房的通风口进入,不管是对工作人员还是对机器设备都很不利,还会造成一些滤网的污染。

本文由上海时时乐走势图发布于服务器运维,转载请注明出处:预防服务器宕机 你知道该怎么做吗?(1)上海时时

您可能还会对下面的文章感兴趣: