保持网络正常运行:防止中断比以往更为重要

日期: 2017-05-30 作者:Steve Zurier翻译:曾少宁 来源:TechTarget中国 英文

最终用户数量的增长使现代企业面临越来越大的网络中断风险——再加上有越来越多的业务在线上完成,因此这个问题的严峻性达到前所未的高度。 网络中断可能导致单位损失巨额资金和严重损害他们的名声。西南航空和达美航空去年夏天遇到的重大网络中断事故,就是很好的例子。西南航空的网络中断造成的公司损失达到5400万美元,而达美航空则因为停电事故付出了1.5亿美元的代价。

行业专家指出,这两家航空公司一直在努力向他们的客户交付更加先进的技术服务,这使他们面临网络问题带来的风险。所有航线的旅客都会在线预计机票,然后希望通过手机接收他们的机票,这给订票和出票系统及企业网络带来很大的压力。 虽然这两家航空公司所遇到的事……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

最终用户数量的增长使现代企业面临越来越大的网络中断风险——再加上有越来越多的业务在线上完成,因此这个问题的严峻性达到前所未的高度。

网络中断可能导致单位损失巨额资金和严重损害他们的名声。西南航空和达美航空去年夏天遇到的重大网络中断事故,就是很好的例子。西南航空的网络中断造成的公司损失达到5400万美元,而达美航空则因为停电事故付出了1.5亿美元的代价。

行业专家指出,这两家航空公司一直在努力向他们的客户交付更加先进的技术服务,这使他们面临网络问题带来的风险。所有航线的旅客都会在线预计机票,然后希望通过手机接收他们的机票,这给订票和出票系统及企业网络带来很大的压力。

虽然这两家航空公司所遇到的事件较为引人关注,但是网络中断并不是唯一可能遇到的问题。大多数其他行业的应用也一样会面临网络压力,而中断问题可能并确实发生在许多类型的组织中——大银行、电信运营商、云提供商和大学等。Salesforce曾经因为一天的中断而损失2000万美元。

最佳实践

网络分析师指出,采用以下的标准最佳实践方法,可以帮助组织降低网络中断的压力。

负责Enterprise Strategy Group网络技术的分析师Dan Conde说:“在西南航空的案例中,有一台路由器宕机了,这实际上是不应该发生的问题。”

Conde指出,公司需要考虑核心基础架构3至5年的更新周期,并且关注内置冗余性。此外,他们应该利用支持网络可见性的现代网络管理工具。

德克萨斯州奥斯丁的圣爱德华大学数字基础架构副主管Roberto Dovalina指出,这正是他们团队所做的事情。他和同事一起负责支持大约5,500名学生和1,200职员和员工。

Dovalina说,他们在圣爱德华大学的数据中心部署了冗余核心路由器、防火墙和服务器机架,他们每隔3至5年就会更换一次设备。此外,他们每隔5至7年会更换支持校园建筑的12台路由器。

通过部署冗余基础架构,圣爱德华大学可以周期性将一些设备关闭半天,然后进行网络测试。

此外,他们还在系统中开发了情报逻辑和脚本,这样当核心路由器宕机时,他们就可以启用1台或2台备用路由器,从而保证所有程序都不受到宕机的影响。

防止网络中断的最佳实践

下面是ESG的Dan Conde提出的防止网络中断的9个步骤:

1. 端到端地遵从这些最佳实践。网络最薄弱环节决定了网络的强度。

2. 从基础做起。维护硬件,避开旧系统,运行诊断程序,配置合适电源和备用电源,运行电源系统压力测试。

3. 测试整个系统。切断一些链路,测试故障恢复是否正确执行。如果没有,则可能有配置问题。

4. 尽可能使用路由器备用协议。一定要在不同路由器层次之间配置冗余链路——并且使用虚拟路由冗余协议(Virtual Router Redundancy Protocol)或热备路由协议(Hot Standby Router Protocol)等协议,从而使备用路由器能够在主路由器出现问题时接管负载。

5. 与ISP使用。部署来自网络运营商的替代路径。此外,购买足够多的带宽,从而保证备用路径用完时,它们举造成级联故障。

6. 使用更新的网络管理工具。一直使用正确的网络可见性和监控工具,包括分析和应用部署测试时期。这个部分至关重要,也是服务保证的关键——如果不发现问题,就不知道如何解决问题。

7. 要考虑应用层。要设计整个架构,使基础架构与应用程序协调工作。不要强迫应用去适应已有的基础架构——要先设计应用的架构,然后再设计基础架构,使之符合应用需求。要整体地看待这两个部分。

8. 要全面。要检查链路故障和设备故障。不要只关注成本,而忽视其他方面。

9. 保持跟踪。如果遇到故障,无论是在真实环境或是测试环境中,都要执行全面的事后分析。

Dovalina解释说:“在网络中断之后修复网络是很简单且不需要花费很多的时间。但是将应用程序恢复回中断之前的状态则最耗费时间。因此,使用情报逻辑和脚本将应用程序自动恢复回之前状态,我们就可以非常快速地将系统恢复回正常状态。在一些设备宕机时,用户几乎感觉不到断网的情况。”

“不能破坏任何东西”

根据Dimension Data的2016 Network Barometer报告,有37%的网络服务意外事件都归咎于人为错误,而其中有许多都与配置错误相关。

组织正在采取措施纠正配置错误。Dovalina指出,在圣爱德华大学中,工程师需要审批所有的网络配置变更。

企业网络工程师Robert Lumsden指出,Fidelity Information Services在这个概念上做得更深入一步,它的每一个变更工单都需要经过全面同行审议。而且,在变更之前,工程师、内部客户及其他干系人(如来自审计或销售部门的员工)需要一起开始,这样工程师才能完全解释清楚变更内容,并且解答一些疑问。

Lumsden说:“我们想要做的是评估出现瓿之后的风险。我们的格言中‘不能破坏任何东西’。”

更紧密合作并终身学习

此外,圣爱德华大学的Dovalina指出,组织还需要与他们的供应商建立更好的合作,最终将网络中断的风险降到最低。他补充道,大学与Extreme Networks紧密合作,部署它的交换机和路由器。

Dovalina说:“在选择供应商时,你必须询问自己。‘他们是否提供了一个完整解决方案,还是只提供网络设备?’当我们与Extreme Networks开始启动一个项目时,我们会一起制定策略和确定解决方案,然后再建立一个概念模型,然后我们会根据需要对它进行测试,直到将它部署到生产环境。”

此外,一定要保持学习最新的网络趋势。Dovalina说,他和圣爱德华大学的高级网络管理员Paul Miklas一起保证定期参加本地和全国的交易展会。

Miklas说:“有人会等着技术到来。我们则喜欢主动出击。例如,我们现在会投入时间学习新兴技术,以及它们将如何适应我们的运营。”

可编程网络的风险

有一些可编程网络技术的提倡者认为,它可以减少手工配置及人为引起错误可能性,从而可以将网络中断的风险降到最低。

思科企业网络高级副总裁Jeff Reed说:“在过去20年,管理网络一直没有太大的变化。客户告诉我们,他们的网络工程师将80%的时间都投入到保持网络的正常运行。许多的流程都基于人工的任务,而这些任务严重拖累顶级技术人员,使它们无法专注于支撑业务的关键应用程序。”

Reed指出,思科一直专注于在交换机使用更高效的设计,它可以帮助网络工程师减少配置时间。Brocade通信系统公司、Pluribus Networks和Barefoot Networks等供应商也有可编程网络技术。

Reed解释说:“我们正在尝试在交换机中加入更多的智能,从而使网络工程师只需要处理高级策略。网络工程师应该更关注于他们优先处理哪一些应用程序流量,而不是那些一成不变的网络设计。”

当然,虽然更好更高效的交换机和路由器可以将网络中断的风险降到最低,但是网络组织仍然需要注意Dovalina和Lumsden所推荐的最佳实践。这种新型交换机可能流行更长时间并且能够减少过载,但是网络组织仍然需要刷新策略。而且,即使将大多数配置实现自动化,但是在出现异常情况时仍然需要监控它们。

最后,网络组织仍将需要审视环境和选择最适合未来发展趋势的网络伙伴。一些组织仍然部署内部数据中心,并且仍然坚持使用自己熟悉的技术和策略。但是,经济因素可能促使许多企业至少将一部分数据中心迁移去云供应端环境,如亚马逊Web服务和微软Azure,这种方式要求有创新思考方式和开放网络等新技术。

但是,这属于另一个话题。在目前而言,我们要做的事情是保持网络正常运行。

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐

  • 论风险评估之网络评估(下)

    我们时常都在谈论这样的问题:网络具有怎样的风险,存在怎样的安全隐患,并由此引发怎样的安全问题。那在网络安全领域,风险究竟指的是什么呢?

  • 论风险评估之网络评估(上)

    我们时常都在谈论这样的问题:网络具有怎样的风险,存在怎样的安全隐患,并由此引发怎样的安全问题。那在网络安全领域,风险究竟指的是什么呢?

  • 利用SNMP监控网络运行状况

    在大型网络管理中,网络管理员比较头痛的问题就是如何实时了解不在身边的网络设备的运行状况。若要一台一台的去查看网络设备的运行现状,那明显不是很现实。有什么办法呢?