世界上不存在百分之百正常运行这样的好事,但是掌握一些技巧可以让你离自己的目标和期望值更接近。
最近几个星期,不论是在博客中还是在现实世界中,我一直都在进行故障排除的工作。简单地说,我的周围一直充斥着形形色色的IT问题。
在这个世界上,没有哪门技术或者哪种过程可以避免所有将在未来发生的运行中断、缺陷代码或者由于人为的失误而导致的故障。当然,你可以在你的基础架构上花费大量的金钱,但是,在IT预算短缺的前提下,一些小技巧可以大大简化这些问题所带来的麻烦。
保护基础架构技巧之一:为所有设备保留备用设备
理想状态下,你已经对自己的网络和服务器组件进行了标准化。当然,还会有某些比较奇怪的地方,但是你所有交换机应该都来自同一品牌,或者是相同的型号。你的服务器必须属于同一类型,或者至少它们的用途相同(比如惠普ProLiant DL360用于一个主基础架构,然后Dell PowerEdge R415用于另一个)。这些服务器并不是很贵,特别是如果在以最低配置购买它们的时候。在紧要关头,你可以用闲置不用的服务器来替代故障服务器,将一部分功能转移到暂时不用的设备上去。在某些情况下,你甚至可以进行简单地磁盘交换。
对于路由器和交换机也同样如此。使用像RANCID这样的工具来自动下载和存档交换机和路由器配置,你可以把故障路由器和交换机的配置转储到备用设备上去以挽救局面。防火墙的工作方式相同。有时候,你甚至可以从eBay上拍卖到便宜的备用设备:不必在乎这些设备的维护问题,单单考虑自己的需求而把价格问题放在一边就可以了。甚至你在运行Cisco ASA的时候,可能可以找到类似配置但是已经绝版的Cisco PIX,或许只是花上几百美元就可以在你遇到致命的服务器故障的时候救你一命。
保护基础架构技巧之二:有问题找维基
那个远程办公交换机的序列号应该是什么?这台路由器运行什么版本的IOS?我发现收集这些问题答案最简单的办法就是求助于维基。把CentOS安置在一台虚拟机上并安装维基百科,然后开始在你的基础架构上进行资料的编制。我就把很多Cisco设备的信息直接粘贴到维基页面上去,或者在上面详细描述某些交换机的特点和功能。这样,在出现差错的时候,我就可以迅速地找到所需的信息,把本来需要花费三个小时来完成的工作在三十分钟内解决。
对于储存在维基上的文档,我并没有设置密码。可能需要记录的条目有很多:一些控制台服务器端口的罗列、交换机端口的分配、每台服务器的品牌、型号、序列号、功能、存储和内存配置等等。如果这些一旦存在于你的基础架构之中,就应该单独在维基中列出一个条目。
从头开始做这项工程可能是件很痛苦的事情,但是在进行某项事情的时候记录它却很容易做到。如此一来,在下次你想立刻找出故障的远程交换机的序列号的时候,你就可以轻而易举地查找出来了。
保护基础架构技巧之三:建立随时随地可以进行连接的备份
如果可能的话,应该配备很多路径通向每个数据中心和远程办公室。在早些时候,这么做需要十分高昂的成本,但是现在你可以使用企业级的DSL或者电缆来连接你所有的办公地点。大多数情况下的花费不会超过100美元一个月,不过这能让你在紧急情况下有一个备用的登陆某个办公地址的路径。你甚至可以切断通往这些地址的信息流量,然后把企业信息流量转移到租用专线上,把网络浏览信息流量转移到DSL上去。
如果成本是最终问题,你可以仿效技巧一的做法,为这条线路从eBay上购买一个已经使用过的防火墙。因为这对于生产无关紧要,所以你不用太在意设备的可靠性。二手的商品对于紧张的预算而言再合适不过了。
保护基础架构技巧之四:准备备用服务器
这一条只适用于虚拟基础架构。假设你拥有一个由一系列1U服务器组成的虚拟基础架构,并在该架构上运行几百台虚拟机,如果一旦系统出现问题,你可能会运行这些虚拟机的部分子设备来维持关键的商业应用程序。在这种情况下,你没有必要去建立并维护该虚拟基础架构的复制版本,不过,你可以花钱购买一台配置了大量内存的4CPU服务器,它可以在一定的时间内为你承担一些生产负荷。
在整个虚拟架构中,这台服务器将在平时不发挥任何作用(尽管它可以),但是在需要的时候,它必须时刻准备着处理突发的工作负载。有时候,为了避免花在处于休眠服务器许可证上的费用,你甚至可以躲开虚拟化厂商的评估期。
至于这种紧急状态下使用的服务器的大小,应该与你的基础架构的需求以及你所期望运行的虚拟机的数量相吻合。一般来说,在一个虚拟环境下,你可以在花费少于一万美元的情况下拥有可观的紧急情况处理能力。用这些钱购买一个“安心”难道不值得吗?
保护基础架构技巧之五:学习Linux
即便你是一家Windows厂商,对于Linux充分的了解和学习也可以为你提供很多高价值并且低成本的选择。你可能不太适应在Linux上运行关键的商业应用程序,但是Linux和Unix拥有令人难以置信的海量开源网络和系统监控和维护工具。虽然Windows版本也有很多这样的工具,但是它们大多也是来源于Unix。
我曾经被指责过渡偏爱一些全面监控和维护补丁,比如Nagios、Cacti、RANCID等等。但是事实上,这些工具真的会为你的日常IT操作和问题解决方式带来很大的变化。学习Linux并且使用这些工具的好处是双重的:第一,你可以获得Linux技巧;第二,可以使用大量的支持工具来丰富你的网络,让每个人的工作生活都变得更加简单。
在这个故障百出、换乱不堪的IT世界里,说得总是比做的要容易。这里,引用一句老谚语:如果你因为忙着擦地板而忘记关掉水龙头,那么或许你应该重新考虑一下自己做事情的方式。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
相关推荐
-
DNS故障排除十要诀
对基于Windows系统的网络来说,DNS都属于最重要的服务之一,没有DNS的支持,活动目录就不能正常工作,因此,在DNS出现问题时尽快解决就成为一项非常关键的工作。
-
系统故障排除万能法则:“二分法”
在日常运维过程中,客户端系统故障应该是最常见的了,在日常解决故障的过程中,如何快速定位到故障源是个非常关键的问题。
-
网络故障简单分析指导(三)
网络管理员每天都会遇到各种各样的问题,面对故障如何分析故障原因进行排故呢?本文列出了62种常见故障并给出了相应的分析和排故建议。
-
网络故障简单分析指导(二)
网络管理员每天都会遇到各种各样的问题,面对故障如何分析故障原因进行排故呢?本文列出了62种常见故障并给出了相应的分析和排故建议。