IT运维管理是时下IT界最热门的话题之一,随着IT建设的不断深入和完善,计算机硬软件系统的运行维护已经成为了各行各业各单位领导和信息服务部门普遍关注和不堪重负的问题。由于这是一个随着计算机信息技术的深入应用而产生的新课题,因此如何进行有效的IT运维管理,这方面的知识积累和应用技术还刚刚起步对这一领域的研究和探索,将具有广阔的发展前景和巨大的现实意义。
现状及趋势分析
尽管IT运维管理的技术在不断进步,但实际上,很多系统工程师并没有真正解脱出来,原因并不复杂:“虽然已经能够获取网络设备、服务器、网络流量,甚至数据库的警告信息,但成千条警告信息堆积在一起更本没法判断问题的根源在哪里?”“虽然不少产品提供了告警过滤和压缩,但结果却并不尽人意”。面对这样的抱怨,难道我们的工程师将永远无法走出“被动的怪圈”吗?
如今,在IT运维领域中,“主动”并不是一个新鲜的概念。几乎所有的宣传、产品、用户、理念都在宣扬“主动”,从被动到主动管理的升华是每个企业针对信息系统如何提高IT服务水平、如何提高系统可用性、降低运维成本,实现IT科学性的过程。很多企业在选择IT管理工具时将最终目标就定位在“主动”,希望业务系统能够“无忧”,但真正能够达成IT与业务融合的企业却是很少。很多IT运维厂商都强调,“传统被动式”的类似“救火员”角色的IT系统运维方式,根本不能适应目前需求,那么企业到底怎样才能实现真正的“主动”呢?
问题症结导致丧失主动权
在虚拟化、云计算等新兴技术的刺激下,IT正在走向一种整合的发展趋势。当然,这种整合并不局限于几台服务器的集群或组成1个数据中心,而是更多地指向了有序、有效地集中,但也就会导致原有的问题也会集中在一起。中国的IT工程师习惯于将工作重心放在性能而不是质量上,放在提供支持而不是消除问题上。我们知道,对于IT系统真正的主动管理,是实现业务服务管理中最重要的基石之一。但有些用户在修正现有的IT管理目标是比较盲目的,因为原先没有一致而且正式的运维程序与原则,因此根本无法拟出服务等级。如果没有 SLA,实现业务测量运营绩效与确立IT目标几乎是不可能的,也就不可能为主动管理排出精准的规划。
很多IT管理工具并没有将业务放在第一位,设计的核心没有用业务指导网络运维,因此从一开始有些人就站在了相反的起跑线上,即使用了最先进的IT运维管理系统,如今还仍然是在做底层获取的工作,虽然拥有了海量庞杂的相关数据,如果得不到提炼,则上层流程的“主动”管理必将成为空谈,业务的保障和管理就会成为无本之木。就如我们共知的那样,IT问题的发生是必然的,但未能根据业务进行基础监控的用户,将丧失在问题。造成业务中断之前,就进行防止的契机,也就丧失了“主动”的条件。
如何重新掌握“主动”
IT技术正在成为企业的神经中枢,越来越多的企业希望借助IT技术这一关键的战略资源提供对关键业务的支持,提升公司的竞争优势,进而实现公司的战略目标。然而由于今天的IT组织面临着诸如日益增长的基础设施复杂性、技能方面的限制以及资金短缺等相当多的问题,因此要实现这一点并不容易。
就如前面说明的那样,如果在IT系统中没有出现问题,也就没有告警信息,但这是不可能存在的一种假设。当所有的业务系统集中起来的时候,出现无数的警告信息实际上是非常正常的,这就如人生病一样,很多疾病都会造成身体上多处特征的不良反应,医生会开出多得让你厌恶的检查表格让你检查,实际上这就是瞧病过程中找到病源的过程。但这个过程越长,你就越加无法忍受。企业的业务系统也是如此,在问题出现时,不能将问题迅速归类,不能发现最具特征的表象,也就迟迟无法做出问题改善,“主动”也就失去了意义。
每一年企业都会都投入大量的资金和人力去做运维,但每一年我们都会发现,投入的资金在大量增加,但人力资源并没有得到释放,我们的运维成本也没有随之降低,并不是说我们的投入没有效用,我们花了很大力气所建立的网络监控系统、主机监控系统、应用平台的监控系统等都是非常有用的,那为什么还会出现这样的情况呢,比如说一个故障出现,网络管理员看到自己的网络是好的,主机管理员看到自己的主机是可以正常登陆注销的,应用管理员看到我的应用进程还在,都没问题,那问题在哪里呢,其实就是以往我们的投资见效了,但还少一点,就是这些系统都只关注于某一块,如果可以打破这种格局,将三者之间用一条线给穿起来,效果就会好很多了,问题时不需要我们人为的去分析了,系统直接分析出来告诉给管理员就可以了,所以我们说我们一直所使用的“传统监控”系统,并没有这条主线,才造成故障分析时间大大增长,还有就是,往往“传统监控”系统会强调我可以多么快速的报警之类,那报警完了呢?我们就会看到我们的运维人员看到报警开始忙了,所以,我们一直把监控软件理解为只会报警的东西。
很多企业用户都存在疑问,化繁为简应该不能只是空谈,但如何做到实践、也就是说如何用呢?如:某业务系统,由于关注参数很多,为减轻工作量,平时只关注ping通是否正常,当ping告警触发时,抑制该业务系统服务器的CPU、MEM告警,以免这些告警信息干扰故障源判断,同时立刻关联该业务系统核心网络设备情况,再关联该业务系统连接网络设备端口情况,最终的结果可以发现,是该端口为关闭状态从而触发了告警,原来有人误操作关闭了该端口,激活该端口则恢复正常。由此可以看到,正是通过告警关联与抑制方式实现了先进的问题根源定位能力,从而使得主动管理不再是纸上谈兵。
原文链接:http://lauef.blog.51cto.com/413888/300393
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
云网络时代,IT运维管理如何做到透明可视?
随着技术的演进、应用的发展,企业服务器、网络变得愈发虚拟化,且越来越多的企业趋向于将业务迁至云平台,这无形中给企业IT运维管理带来挑战。对于企业运维管理人员来说,需要采集各个系统的数据进行分析与管理,以最大程度实现运维管理的透明可视。
-
攻城狮是这样迎来IT运维管理的春天的……
企业业务的增加给IT部门带来挑战,特别是对于那些负责IT运维管理的攻城狮们来说,管理对象越来越多,环境越来越复杂……
-
视频监控“大联网” 平安城市运维亟需“流程化”
自平安城市项目开始推广以来,有一些地方的监控设备屡屡出现问题,平台的运维管理难度也愈加凸显,这些问题得不到有效解决,平安城市进程势必受阻。
-
北塔:寻找IT运维管理中的“阿喀琉斯之踵”
寻找IT运维管理中的“阿喀琉斯之踵”,不会让IT故障从此消失。不过,“让运维系统自动发现故障要比手动检测快得多,快速解决复杂应用问题需要大量的细节指标”这两点还请牢记。