通过Web更高效的内容交付已经成为提高Web性能的一个重要元素。内容传送网络(cdn)已被提议通过内容复制来最大化带宽、改善可访问性和保持正确性[11].使用cdn,内容被分发到位于用户附近的缓存服务器,从而为用户提供快速、可靠的应用程序和Web服务。
更具体地说,cdn通过存储相同内容副本的(所谓的代理)服务器集群维护多个存在点(PoP),这样用户的请求就可以由最合适的站点来满足数字这里)。典型的CDN拓扑包括:
在CDN下,客户机-服务器通信被两个通信流所取代:一个是客户机和代理服务器之间的通信流,另一个是代理服务器和原始服务器之间的通信流。这两种通信流的区分减少了拥塞(特别是在流行的服务器上),并增加了内容分发和可用性。为了维护相同内容的(全球)分布式副本,CDN的实践是将其代理服务器定位在战略数据中心(依赖于多个网络提供商)中,并通过全球分布式基础设施。在这方面,使用cdn的最具指示性的优点是:
向地理上分布的和潜在的大量受众(如Web)提供内容的组织被CDN所吸引,它们的趋势是与CDN提供商签订合同,并通过该CDN提供其站点的内容。cdn在Web社区中被广泛使用,但一个基本问题是所涉及的成本相当高。侧栏“CDN:当前状态”列出了最流行的CDN提供商,并给出了CDN发展的历史背景。
由于cdn处于一个相当新的和不断发展的状态,因此了解其价值及其影响是很重要的。在[11,我们介绍了CDN架构和流行的CDN服务提供商。这项调查的目的是了解CDN框架及其用途。在这里,我们确定了最具特色的当前实践,并提出了cdn的演进路径,以便理解它们在分布式环境和Web上的内容交付实践的近期演进中所扮演的角色。
CDN内容交付涉及到几个问题,因为在代理服务器的位置、外包的内容以及(选定的内容)外包使用的实践等方面存在不同的决策。很明显,针对这些问题的每个决策都会给CDN提供商带来不同的成本和约束。这里总结了内容交付实践中涉及的关键问题。
代理服务器的位置.为每个代理服务器选择最佳位置对于每个CDN基础设施都很重要,因为代理服务器的位置与内容交付过程中的重要问题相关。确定CDN代理服务器的最佳网络位置(称为Web服务器副本放置问题)对于内容外包性能和整体内容分发过程至关重要。CDN拓扑的构建使得客户感知的性能最大化,基础设施的成本最小化。因此,有效的代理服务器放置可以减少所需的代理服务器数量和内容的大小(复制在它们上),以努力结合高质量的服务和低CDN价格。在这种背景下,已经提出了几种放置算法(如Greedy1,它会逐步放置副本,热点[10,它将副本放置在产生最大负载的客户机附近,并且是基于树的2副本)。这些算法指定代理服务器的位置,以便以较低的基础设施成本实现更好的性能。早期的实验表明,贪婪的放置策略可以产生接近最优的性能[10].
内容的选择.为了满足客户的需求,选择应该外包的内容是内容选择问题中的另一个重要问题。一个明显的选择是将整个源服务器对象集外包给其他代理服务器(所谓的整个复制)。完整复制的最大优点是它的简单性,然而,这样的解决方案是不可行的或不切实际的,因为尽管磁盘价格在持续下降,但Web对象的大小也在增加(如音频或视频的需求)。此外,更新如此庞大的Web对象集合的问题是无法管理的。因此,内容选择问题的挑战是为Web内容的复制找到一种复杂的管理策略。
典型的做法是根据相关性或访问频率对Web内容进行分组,然后以内容集群为单位复制对象。提出了两种类型的内容聚类:
内容外包.在CDN基础架构下,使用给定的代理服务器集和指定的交付内容,决定遵循哪种内容外包实践是至关重要的。到目前为止,出现了三种不同的内容外包实践。
合作推动基于:内容被(主动地)从原始Web服务器推送到CDN代理服务器。首先,将内容预取(在访问之前将其加载到缓存中)到代理服务器,然后代理服务器进行协作,以减少复制和更新成本。在这个方案中,CDN维护内容和代理服务器之间的映射,每个请求都被定向到最近的代理服务器(拥有被请求的对象),否则,请求被定向到原始服务器。基于cdn的协作推送方案的几种复制策略在[7],其中指出贪婪全局启发式算法是在协作代理服务器之间做出复制决策的最佳选择。这种方法是在理论层面上提出的,因为它还没有被CDN提供商采用[1,3.].
不合作的基于:客户端的请求被定向(通过使用DNS重定向4或URL重写5机制(3.])到它们最近的代理服务器。如果缓存丢失且未找到所请求的内容,则将请求定向到底层CDN的对等代理服务器或源服务器。更具体地说,充当缓存的代理服务器在缓存丢失时从源服务器拉出内容。这种做法的一个问题是cdn并不总是选择提供内容的最佳服务器(如[中指出的])。6])。然而,许多流行的CDN提供商使用非合作拉(如Akamai和Mirror Image),因为基于合作推送的方案仍处于实验阶段。
合作基于:客户端请求通过DNS重定向到它们最近的代理服务器。合作拉型cdn(如Coral6)表示代理服务器在缓存丢失的情况下相互协作。具体来说,使用分布式索引,代理服务器可以找到请求对象的附近副本,并将其存储在缓存中。
CDN定价.面向商业的网站转向cdn来解决高流量问题,同时为客户提供高数据质量和增强安全性,以增加利润和人气。CDN提供商根据他们的流量(由代理服务器传递给客户端)向他们的客户(网站所有者)收取费用。
CDN服务定价存在技术和业务上的挑战。通常由CDN基础设施提供的服务包括视频点播、电子书和新闻服务。但是CDN服务应该如何定价呢?CDN服务的定价是一个相对较新的和未探索的问题,然而,使用分析模型来解决此类服务的最优价格的讨论见[4].根据最近的趋势(如降低带宽成本)及其对CDN定价政策的影响,这项研究得出的结论是CDN的价格将下降(同时将加快网站上的内容交付过程)。此外,根据最近的一份CDN市场报告,7显然,CDN的价格相当高(因为在2004年,传输每千兆字节的流媒体视频的平均成本是1.75美元,而传输每千兆字节的互联网广播的平均价格是1美元)。影响CDN服务定价的最具指示性的因素包括:
根据市场营销实践,当信息技术投资使公司能够用更少的资源生产更多(给定服务)时,成本就会降低。因此,为了减少CDN定价服务,一个明显的解决方案是增加带宽,但这样的选择涉及增加经济成本。然而,更高的带宽可以暂时解决这些问题,因为它只会允许用户创建更多需要资源的应用程序,从而进一步堵塞网络。因此,带宽限制给CDN客户端带来了较高的通信成本和经济成本。
识别CDN的进化路径是很有趣的,因为CDN仍在进化,并且有一些需要满足的要求。在这里,我们提出了改进CDN服务质量和性能的特定技术。以下想法可作为可整合到现有CDN框架的潜在实践的指导方针。
利用cdn下的缓存.内容选择和外包大多与CDN的客户感知服务相关。由于Web上的缓存已经是一种更成熟的实践(比CDN),了解在CDN上使用特定的与缓存相关的进程是否(以及如何)会导致更好的性能和内容访问是很有趣的。考虑在CDNs下进行缓存是一个简单的想法,因为代理服务器配备了可以而且应该利用的缓存。已经强调了一些想法,为了进一步开发cdn点上的初始缓存,以下问题似乎非常关键。
网页预取:一种推断客户端对Web对象的未来请求的过程,方法是在显式请求之前将流行的请求对象移动到缓存中。在CDN基础设施上采用预取的潜在主要优势包括防止带宽利用不足和减少相关延迟的很大一部分。cdn中预取的实践已在[12,其中强调了cdn中预取的成本和收益。这些结果表明,通过关注最受欢迎的长寿命对象,cdn可以以适中的成本获得显著的好处。更具体地说,长期预取增加了磁盘空间成本,但它有利于CDN基础设施,因为它提高了命中率(一个实际反映用户对系统满意度的变量)。
代理服务器缓存分割.代理服务器的每个缓存可以在多个域中进行逻辑分区,以提供更灵活的内存管理。这种做法将有助于降低CDN成本,因为代理服务器上的“智能”缓存分段(缓存可以在具有特定含义的语义域上进行分区)将增加缓存命中率并降低访问成本。cdn中的缓存分割实践可能基于传统Web信息管理系统中的类似实践,这已被证明可以显著提高Web上的性能[8].此外,缓存分段对于cdn是非常有前途的,因为缓存段可能会有意地增长和收缩(根据请求流),而且在每个段上可能会应用一个单独的替换策略。
满足CDN用户偏好.满足用户首选项对cdn至关重要,最初的实践是考虑内容个性化:采用内容管理任务,通过该任务对内容进行个性化,以满足每个单独用户(或用户组)的特定需求。cdn中的这种做法可能受到[中提出的Web个性化系统的启发9],使用数据挖掘技术从Web使用数据中自动学习用户偏好。
下面着重介绍cdn上的内容个性化的一些指示性目标:
在cdn上进行数据挖掘。数据挖掘技术似乎为cdn提供了一个有效的好处,因为cdn管理高度分布式基础设施上的大量数据集合。在此背景下,数据挖掘实践已与[1],这些实践可以提供有效的方法来处理CDN上涉及的大规模数据管理的困难(如流量、账单)。因此,CDN开发者和客户可以利用数据挖掘解决方案来改善CDN定价、拓扑结构和内容外包。
在回答“为什么在cdn上使用数据挖掘?”这个问题时,经常会出现以下回答:
检测相关对象:这样就方便了基于推的CDN方案(或预取)。相关的对象可以通过使用著名的聚类技术来识别,这些聚类技术大多基于相似度(使用距离度量,如欧几里得、余弦)[5];
识别CDN拓扑:由于基于链接的聚类技术[5]可以通过考虑Web图属性来使用,因此代理服务器的位置可以通过Web图集群来识别;
确定页面的集群:通过选择内容集群进行内容外包,解决内容选择问题。各种挖掘技术,例如基于模型的聚类(为每个页面集群使用概率分布),可以用于促进内容外包;
定义用户集群:通过使用现有的实践(如基于信念函数、贝叶斯网络或马尔可夫模型的实践)在集群中对用户进行分类,以促进内容个性化。
的表格这里强调了一些特定的数据挖掘实践和CDN方面所涉及的问题,以努力理解在CDN框架下采用此类实践的重要性和挑战。
满足用户首选项对cdn至关重要,最初的实践是考虑内容个性化:采用内容管理任务,通过该任务对内容进行个性化,以满足每个单独用户(或用户组)的特定需求。
cdn仍处于发展的早期阶段,其未来的演变仍是一个悬而未决的问题。了解CDN框架中涉及的现有实践是至关重要的,以便提出或预测演化步骤。挑战在于如何在成本和客户满意度之间找到微妙的平衡。在这个框架中,与缓存相关的实践、内容个性化过程和数据挖掘技术似乎为cdn的进一步发展提供了有效的路线图。
1.陈勇,等。使用内容集群进行高效的自适应Web复制。IEEE通讯选定领域杂志21, 6(2003年8月),979994。
2.芬克,J.等。将个性化付诸实践。Commun。ACM 455(2002年5月),4142。
3.藤田,N.等。用于Web内容动态复制的粗粒度复制管理策略。计算机网络45,(2004), 1934。
4.Hosanagar, K.等。内容传递网络服务的最优定价。在第37届系统科学国际会议论文集(夏威夷大岛,2004年1月)。
5.Jain, A.等人。数据聚类:综述。ACM计算调查31, 3(1999年9月),264323。
6.约翰逊,K.L.等人。内容分发网络的测量性能。计算机通信24, 2(2001年2月),202206。
7.姜泽杰等。内容分发网络中的对象复制策略。计算机通信25(2002年3月),367383。
8.Katsaros, D.和Manolopoulos, Y. Web内存层次结构中的缓存。在第19届ACM应用计算研讨会论文集(2004年3月,塞浦路斯尼科西亚),11091113。
9.Mobasher, B.等人。基于Web使用挖掘的自动个性化。Commun。ACM 43(2000年8月),142151。
10.邱,L.等。关于Web服务器副本的放置。在第20届IEEE信息通信会议论文集(安克雷奇,阿拉斯加,2001年4月),15871596。
11.Vakali, A.和Pallis, G.内容传递网络:现状和趋势。IEEE互联网计算76(11月/ 12月。2003), 6874。
12.Venkataramani, A.等。内容分发的长期预取的潜在成本和收益。计算机通信254(2002年3月),367375。
1贪婪算法。Wolfram Web资源;mathworld.wolfram。com/GreedyAlgorithm.html。
2李,B.等。关于Web代理在Internet中的最佳位置。在第18届IEEE信息通信会议论文集(1999年3月,纽约),12821290。
3.Web日志文件提供了从用户进入网站到该用户离开网站这段时间内所执行的活动的信息。
4DNS在代理服务器的符号名称和它的数字IP地址之间执行映射。
5源服务器通过重写动态生成的页面的URL链接将客户机重定向到不同的代理服务器。
6珊瑚内容分发网络;www.coralcdn.org/overview。
7CDN市场份额:2004年和2005年的完整业务分析。AccuStream iMedia研究;www.researchandmarkets.com。
1.CDN市场份额:2004年和2005年的完整业务分析.AccuStream iMedia研究;www.researchandmarkets.com。
2.荣格,Y.等。闪电群和拒绝服务攻击:cdn和Web站点的特征及其影响。在第11届国际万维网会议论文集(夏威夷,2002年5月),293304。
©2006 acm 0001-0782/06/0100 $5.00
允许为个人或课堂使用本作品的全部或部分制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。
数字图书馆是由计算机协会出版的。版权所有©2006 ACM, Inc.
没有发现记录