故障排除的一般过程

日期: 2010-10-12 来源:TechTarget中国

  虽然故障现象千奇百怪,故障原因多种多样,但总地来讲就是硬件问题和软件问题,主要包括网络连接性问题、配置文件和选项问题、网络协议及网络服务问题。

  故障排除一般过程

  在排除故障时,应该仔细观察,检查各软/硬件是否运行正常,配置是否正确,并将故障现象认真仔细地记录下来,不仅便于分析,还可以积累经验,便于以后处理类似故障,而且还会启发思考许许多多与此相关联的问题,从而进一步提高理论和技术水平。

  1. 识别故障现象

  当发生网络故障时,在进行故障排除之前,必须对故障现象有一个比较确实的认识,从而为确定发生故障原因打下基础。也就是说,管理员应首先对问题进行快速定位,能够及时找到处理问题的出发点。因此,了解所发生的故障并能够及时识别,是成功排除故障中最重要的步骤。

  如果想要排除网络设备、网络服务、网络软件、网络资源等故障,管理员必须清楚这些设备或服务在正常状态下的表现形式。并且在网络中,了解网络拓扑结构、理解网络协议、掌握操作系统和应用程序,都是故障排除必不可少的理论和知识准备。因此,在识别故障现象之前,必须清楚网络系统的正常运行特性。

  通常,在识别故障现象时,可以注意以下几个方面:

  当被记录的故障现象发生时,正在运行什么进程?

  这个进程以前运行过吗?

  以前这个进程的运行是否成功?

  这个进程最后一次成功运行是什么时候?

  从那时起哪些发生了改变?

  2. 对故障现象进行详细描述

  当网络出现故障时,对故障现象的详细描述是非常重要的。准确而详细地描述故障现象,认真记录所有的出错信息,并快速记录所有有关的故障迹象,制作详尽的故障笔记,有助于分析出故障原因。

  针对于所发生的故障,分析这些故障现象究竟说明了什么呢?这些故障之间是否相互联系呢?在寻找问题答案的过程中,还有可能会导致更多的故障产生。所以,在开始排除故障之前,应收集所有有关故障的信息,对问题和故障现象进行详细的描述,并注意所发生的各个细节,记录下所有的问题。

  在实际的网络故障排除过程中,有可能相同的故障现象是由不同的原因所造成的。但也有可能相同的故障原因造成不同的故障现象,这就要看我们在实际的网络故障排除过程中,知识的积累程度了。

  3. 列举可能导致错误的原因

  当管理员对故障现象了解之后,就应该列举出所有可能导致故障的原因,这样做的目的是能够更好地、更彻底地解决问题,以及预防相同的故障再次发生等。通过所列出的故障原因,管理员应当能够想到导致故障的原因可能有哪些,如计算机硬件故障、网络连接故障、网络设备故障、协议配置不当等。

  需要注意的是,在这个阶段中不要试图去找出故障是由某一个原因所造成的,而是要尽量多地记录下可能导致问题发生的原因。也可以根据出错的可能性把这些原因按优先级别进行排序,但是不要忽略其中的任何一个。因为有些时候有可能会因为一个小小的疏忽,而使自己在故障的排除上走弯路,因此应认真对待每一个问题,哪怕是一个极小的问题。

  4. 缩小搜索范围

  对于任何一种网络故障,都可以采用有效的软/硬件工具,从各种可能导致故障的原因中一一排除非故障因素,对可能导致错误的原因进行逐一测试。但需要注意的是,不要根据任何一次测试,就断定某一区域的网络运行正常或不正常,在确定了一个错误以后,还应继续测试,以免漏掉其他的故障原因。这主要是因为在网络中导致故障的原因是多方面的,就像人一样,一点点的小病可能不会对人造成太大的影响,但如果是很多小病同时加到人的身上发生的话,就有可能造成很严重的后果。对计算机网络也是如此,无论问题有多么小,都应该引起足够高的重视。
除了测试之外,还应注意以下几个地方:

  注意网卡、交换机和路由器面板上的LED指示灯。通常情况下,绿灯表示连接正常,红灯表示连接故障,不亮表示无连接或线路不通,长亮表示在网络中存在广播风暴,指示灯有规律地闪烁才是网络正常运行的标志。

  查看服务器、交换机或路由器的系统日志,这些系统日志中往往记载着发生的错误以及错误发生的全部过程。

  可使用CiscoWorks等网络管理软件检查一下哪些设备出现了问题。这些软件往往具有图形化的用户界面,对交换机各端口的工作状态可以一目了然,而且很多网络管理软件还有故障预警和报警功能,可以提供很大的帮助。

  当然,不要忘记记录下所有的观察及测试的方法和结果。

  5. 隔离错误

  当管理员经过反复的测试后,已经基本弄明白是哪一部分故障导致了问题后,管理员则应该开始检查一切与已知故障现象相关的内容,如网络连通性故障应检查网络的联通性、网卡的工作情况、交换设备的工作情况。然后,管理员就应该对该故障进行排除了,在这里就应该针对不同的故障采取不同的应对措施,由于此时对所发生的故障已经有了充分的了解,所以就可以很容易地将故障排除。

  6. 故障分析

  对于一名合格的网络管理员来说,将故障解决了并不代表完成了故障的解决工作,而还需要管理员在解决完故障后,对网络故障进行详细的分析。例如分析如何才能避免类似故障的发生,并拟订相应的对策,采取必要的措施,制定严格的规章制度等。因此,对于网络管理员来说,制作所管理的网络的正常状态的网络状况,和发生故障时的网络状况是一项不可缺少的工作,这也就是前面所提到的故障分析阶段。当再次发生类似的故障时,即使忘记的某些可以引起故障的原因,也可以通过查看原来所制作的文档,得到事半功倍的效果。

  对于一些比较简单、比较明显的故障,上述过程看起来可能会显得有些繁琐,但对于一些复杂的问题,这却是必须遵循的操作规程。或者说,对于一名经验丰富的网络管理员来说,一般的网络故障都可以轻松地解决,但哪一个管理员都不能说、也不敢说所有的故障他都可以将其解决掉。所以,对于无论是新网络管理员,还是经验丰富的管理员,上述步骤都是必须的。

  一定要记录并保存所有的问题,这样,不仅可以积累经验,便于以后处理类似故障,而且还会启发思考许许多多与此相关联的问题,从而进一步提高理论和技术水平。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。