P2P流量识别与监测技术剖析（上）

P2P （Peer to Peer）是近年来出现的一种新的网络应用，它的出现开启了网络边缘未使用的资源。当前随着硬件价格的不断下降，作为客户端的PC机已经具有相当大的处理能力和存储空间，然而这些资源在大部分时间都是处于闲置状态。比如在当前Internet中流行的C/S配置模式中，用户的PC机仅仅是被作为一个显示网页的工具。而P2P体系结构则可以使用这些PC机分担网络中心的任务。上百万个Internet用户组合得到的处理能力将远远高于任何一个中心服务器的处理能力。除此以外，P2P体系结构还具有开放性、可扩展性强等特点。所有这些使得P2P应用在短短几年时间有了飞速的发展，其体系结构也经历了由集中式服务器（Napster）到纯分散式文件共享系统（Gnutella），再到部分分散式结构（KazaA）;由使用固定端口到使用动态端口进行数据传输;由使用独特端口到与其他应用合用端口（如使用Web应用的80端口等）;由明文传输到进行数据加密传输等变化过程。

研究表明，尽管受版权等问题的困扰，当前P2P应用仍呈现快速增长的趋势，并且变得越来越隐蔽。P2P的飞速发展一方面丰富了网络中的应用形式，但另一方面也带来了许多负面的问题。如：P2P文件共享过程中的版权问题;P2P应用大量占用网络带宽的问题;以及P2P的流量模式对传统网络设计带来的挑战等，其中后者尤为网络设计、管理人员所关注。我们知道，在Web应用流量占网络流量主体时，由于 Web流量的高度非对称性（用户链路的下行流量要远远高于其上行流量），大部分用户接入方式如ADSL、Cable modem等都设计为下行带宽远高于上行带宽。而在P2P应用中，由于所有主机都是对等的，因此其流量具有很大的对称性。研究表明，P2P应用与Web应用上行流量与下行流量的比率分别为1:1.25和1:7，两者差别将近6倍[5]。因此上述设计理念在当前P2P流量占主体的网络状况下已经不再适应。

由此可见，P2P应用对网络性能具有很大的影响，例如对于一些ISP而言，文件共享流量约占其总流量的 60%，另外企业网络中大量出现的P2P流也会极大地影响网络性能。因此无论从ISP的角度还是从企业网络管理人员的角度，都希望能够将P2P流量有效的识别出来，从而便于网络的规划与管理。对于一个企业而言，可以限定P2P流量不超过某个阈值，从而能够为其他重要的应用提供一定程度上的QoS保证;或者为了网络管理的需要，直接在内部将P2P流量过滤掉。而对于ISP而言，可以在此基础上对服务进行控制以及对用户进行管理等。但是当前识别P2P的一个主要挑战就是以一种可扩展的方式识别出P2P流量，同时不要求对所有的分组进行深层分组检查（DPI， deep packet inspection）。

1 P2P流量识别技术概述

为了控制网络P2P应用对带宽的大量占用，必须首先对P2P流量进行有效地监控，它涉及到下面几个方面的问题：流量采集、流量识别以及流量控制。在其中，流量的采集与其他网络监测方式采用的技术完全一致，流量控制则取决不同的网络管理策略，由网络管理人员进行相应的设置，例如进行P2P流量限制或者完全过滤P2P流量等。因此，这里的关键部分是流量的识别操作。根据实现思想不同，可以将它分为多种类型，如基于分组分析、基于流分析等。其实现方式直接关系到整个监控系统的实现效率以及系统的可用性。

P2P应用从最初的采用固定端口发展到使用可变端口甚至使用其他应用的端口进行数据传输，在传输的具体内容方面也从使用明文传输发展到对传输数据进行加密处理，因此对P2P流量进行识别的技术也随之经历了相应的变化过程。本文中我们主要针对四种典型的识别方法进行讨论，包括端口识别法、应用层特征识别法、流量模式识别法以及连接模式识别法。对于这几种技术，我们将在第二节中进行详细的讨论。

2 典型P2P流量识别技术

2.1 端口识别法

在P2P应用兴起的早期，大多数应用使用的都是固定端口，例如，Gnutella使用 6346-6347端口，BitTorrent使用6881-6889端口等。在这种情况下，对其流量的识别方式与识别普通应用分组的方式完全相同：在需要监测的网络中被动收集分组，然后检查分组的运输层首部信息，如果端口号与某些特定的端口号匹配，则说明该分组即为P2P流量分组，可以按照预设的动作对其进行处理。这种识别方法最大的优点就是简单易行，它不需要进行复杂的分组处理即可得出结论。在P2P应用出现的初期它显得十分简单有效，但是随着P2P 技术的发展，该方法逐渐变得不再适用，因此后来又出现了一些新的技术方案。

2.2 应用层特征识别法

与第一代使用固定端口进行数据传输的P2P应用不同，当前许多P2P应用都能够通过使用随机端口来掩盖其存在，有些甚至可以使用HTTP， SMTP等一些协议使用的熟知端口，这增加了识别P2P流量的难度：简单的通过分析分组首部的端口信息已经无法识别出这类应用的存在。

但是，每种应用的分组中都携带有特定的报文信息，例如，HTTP协议报文中会出现GET， PUT， POST等报文字样。与之相类似，在各种P2P应用协议中也具有类似的信息。因此，人们提出了通过检查分组内部携带的负载信息进行分组识别的方法。文献 [2]提出了一种利用应用层特征的方式对P2P流量进行识别。在[2]中，作者首先对5种常见的P2P协议（KaZaA， Gnutella， eDonkey， DirectConnect以及BitTorrent）的特征进行了分析，提取出其特征信息，然后根据特征信息对收集到的分组进行模式匹配操作，从而判断出该分组是否属于某一类P2P应用分组。例如，Gnutella的连接建立报文具有下述格式

GNUTELLA CONNECT/nn

而应答报文格式如下

GNUTELLA OKnn

根据这些以及其他类似特征，即可判定相应报文是否为P2P应用报文，并由此确定某个流是否为P2P流。

[2]中的实际测量结果表明，在大多数情况下，该方法能够以低于5%的错误概率对分组进行识别。

与第一种方法相比，上述方法能够识别出使用可变端口的P2P流量（这正是当前P2P应用发展的一个趋势），提高了其结果的准确性，例如在同样情况下，用户数据特征识别法识别出的P2P流量是仅仅采用端口进行识别的方法得到结果的3倍[2]。但是分析不难发现，这一方法存在下述一些问题：

只能针对已知数据格式的P2P应用进行识别，这使得每出现一种新的P2P应用，就需要修改上述实现，因而造成其扩展性不好;

对用户数据的检查不符合Internet的基本原则，并且由于诸如法律、个人隐私等原因，检查用户数据在许多情况下几乎是不可能的;

由于需要对分组内部数据进行全面的检查分析，使得其实现效率不是很高;

随着技术的发展，一些P2P应用开始以密文方式进行数据传输，面对这种情况用户数据识别方式则完全是无能为力。

上述种种原因导致用户数据识别方法的通用性十分有限，而且，随着P2P技术的发展，这种识别方法也会与通过固定端口进行识别的方法相类似，逐渐不适应实际的需要，因此有必要找到其他方法对P2P流进行较为精确的识别。

分析端口识别法和应用层特征识别法可以发现，尽管两者的实现机理完全不同，但是其基本思想均是基于 P2P应用的一些外在特征，并且这些外在特征是可以隐藏的，一旦出现上述情况，这些识别方法就不再适用。而且，上述两种方法只能识别已知P2P协议的流量，一旦出现一种新的P2P应用，必须修改上述识别方法才能对其进行识别，这限制了它们的应用范围。因此，为了能从根本上解决这些问题，必须分析P2P应用与其他一些诸如Web等应用的根本区别，然后利用这些本质特征对其进行识别。下述两种方法就分别从P2P应用的流量特征以及P2P网络的连接模式特征着手对其进行了分析。

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号