WAN优化基础(下)

日期: 2008-12-24 作者:Ed Tittel翻译:曾少宁 来源:TechTarget中国 英文

文本抓取是数据采集的一个主要形式 屏幕抓取(Screen scraping)指的是这样一些软件技术,我们打开一些程序窗口,建立某些交互式会话,进行某些操作,然后读取程序窗口出现的结果。因此,屏幕抓取的概念指的就是抓取屏幕上出现的输出文本,并随即将其作为其它程序和进程的输入。更确切地说,屏幕抓取代表的是一种“最小公分母”形式的软件整合,并作为那些没有其它访问和传输手段可用的信息源数据获取的最后一种方法。但是如果应用有提供任何一种更正式的数据访问功能,如典型的是通过应用程序接口(API),那就没有必要使用这种方法。

然而如果没有直接的API,屏幕抓取目前还是很流行的。虽然这个进程似乎是很痛苦的,因为……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

文本抓取是数据采集的一个主要形式

屏幕抓取(Screen scraping)指的是这样一些软件技术,我们打开一些程序窗口,建立某些交互式会话,进行某些操作,然后读取程序窗口出现的结果。因此,屏幕抓取的概念指的就是抓取屏幕上出现的输出文本,并随即将其作为其它程序和进程的输入。更确切地说,屏幕抓取代表的是一种“最小公分母”形式的软件整合,并作为那些没有其它访问和传输手段可用的信息源数据获取的最后一种方法。但是如果应用有提供任何一种更正式的数据访问功能,如典型的是通过应用程序接口(API),那就没有必要使用这种方法。然而如果没有直接的API,屏幕抓取目前还是很流行的。虽然这个进程似乎是很痛苦的,因为它也是一种既灵活又粗暴的数据采集形式。但是,它又是一种值得尊重的做法,因为它已经被使用了很长的时间,特别是对传统的或较老的大型主机应用,因为它们本身没有API或者也不大可能开发API。

从本质上而言,屏幕抓取是一种手动处理和解析字符数据方法,它能得到字符的意思,并将它提供给面向记录或面向对象的其它应用或服务使用。因此,屏幕抓取程序能够在现代平台和最初设计用于与不可访问、非可操作或过时的I/O设备和用户界面一起工作的传统应用系统之间建立连接。这既扩展了它们的可访问性,也提高了相关逻辑和数据的可用性,从而使遗留的程序和平台可以继续提供有用的服务。

简化的计算机接口事实上是基于文本的非智能终端,它们往往很难与现代设备整合或者互操作。完美解决方案要求一些并不存在的奢侈品:API,原始文档和源代码,以及有目标平台开发经验的传统应用系统程序员。而往往更实际可行的解决方法是使用屏幕抓取器来作为传统系统和现代系统的中介。屏幕抓取器可以通过模仿指令序列或按键来操作传统系统用户界面,处理显示输出的结果,提取所需数据,然后将数据以特定形式或格式传输给现代系统。

屏幕抓取的概念还被用在多种获取信息的方法中。网络截取,这是一个现代化的变异,一般包括了几种可以从网站上提取的内容,然后将内容重新格式化或转换到另一个应用场景中。一个抓取应用的的例子是通过浏览零售网站——都是用不同语言编写并有不同的格式——查询为淘宝者分类和索引好的书籍、炊具和电子设备等。图3.2所示为一个工作中的屏幕截取器,它正从Web浏览上采集文本并将相同的信息保存在一个数据库中。

WAN优化

图3.2:屏幕抓取器操作一个浏览器窗口来采集它显示的文本。

屏幕抓取应用可以为WAN优化创造良好的优化基础,因为它们可以降低无效性而使WAN优化可以很容易地解决剩下的问题。首先,它们产生有规律的字符数据流,从而很容易进行压缩,也很容易应用到字典化和字符缓存功能。其次,屏幕抓取应用可以利用一些低效的协议,常用的通信方式,并受制于“非正式的”行为。通过代理的适当重新打包,WAN优化工具帮助解决所有这些缺点。但是,最重要的是,当没有其它可行的编程技术可用时,简单直接的屏幕抓取作为一种寻求优化WAN流量的手段,甚至对于强力压缩或协议流线层面也一样。

作者

Ed Tittel
Ed Tittel

IT老兵,从事开发、网络咨询、技术培训等逾30年。

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐