acm-header
登录

ACM通信

贡献的文章

网络科学:理解网络的跨学科方法


尽管网络作为一项技术取得了巨大的成功,而且它建立在大量的计算基础设施之上,但令人惊讶的是,作为一个实体,它仍然没有得到研究。在这里,我们将讨论一些必须克服的技术和社会挑战,以便将Web作为一个整体进行建模,使其保持增长,并理解其持续的社会影响。如果我们想要理解和设计未来的Web,就需要一种“系统生物学”意义上的系统方法。

尽管Web对计算以及计算机科学的整个领域产生了巨大的影响,但在ACM分类法(该领域组织许多研究论文和会议的分类法)中,人们能找到的最佳关键字指标是“杂项”。同样,如果你看看世界上大多数大学的CS课程,你会发现“Web设计”是作为一门服务课程来教授的,也许还有一门关于Web脚本语言的课程。您不太可能找到教授Web体系结构或协议的课程。这就好像Web,至少在浏览器下面,根本不存在一样。许多“信息学院”和“信息系”提供的课程主要关注Web上的应用程序或“Web 2.0”之类的主题,但很少涉及Web本身的协议、体系结构和基本原则。

简单地说,部分原因是网络长期以来一直是许多部门系统课程的一部分,因此通过TCP/IP网络协议定义的Internet长期以来一直被认为是CS工作的一个重要部分。尽管Web有自己的协议、算法和体系结构原则,但它经常被CS领域的人视为运行在网络之上的应用程序,而不是自身的一个实体。

这很奇怪,因为在计算史上,甚至在人类通信史上,Web是使用最多的,也是最具变革性的应用程序之一。它改变了学术界的教学、交流、出版和研究方式。在工业领域,它不仅创造了一个完整的部门(或者可以说是多个部门),而且影响了整个工业领域的通信和服务提供。在政府方面,它不仅改变了政府与公民沟通的本质,还改变了这些民众的沟通方式,甚至在某些情况下,改变了他们最初选择政府的方式;回想一下美国总统候选人在网上和YouTube视频上回答问题的辩论。据估计,人口的规模约为10倍10而独立的Web文档的数量超过10个11

计算对Web做出了重大贡献。我们对Web的日常使用依赖于计算机科学的基本发展,而这种发展早在Web发明之前就已经发生了。例如,今天的搜索引擎是基于信息检索技术的发展,其历史可以追溯到20世纪60年代。20世纪90年代的创新923提供了现代搜索的关键算法,是Web使用的基础。新的资源(如Hadoop, lucene.apache.org/hadoop/,一个开源软件框架,支持大型商用计算机集群上的数据密集型分布式应用程序)使学生有可能探索这些算法,并尝试大规模的web编程实践,如MapReduce并行性11以一种以前只有几所顶尖大学才能获得的方式。

Web上人类交互的其他方面已经在别处研究过了。特别值得注意的是,Web使用的许多有趣方面(如社交网络、标记、数据集成、信息检索和Web本体)已经成为一些顶级信息学院新的“社会计算”领域的一部分。它们提供有关计算机的政策和政治方面以及计算机使用的经济学方面的网络和互连系统的一般特性的课程。然而,在许多这些课程中,Web本身被视为更一般的原则的特定实例。在其他情况下,Web主要被视为支持多个浏览器用户之间的社交交互的动态内容机制。无论是在计算机科学研究还是在信息学院的课程中,网络经常被专门作为内容的传递载体(技术或社交)来研究,而不是作为其本身的研究对象。

在这里,我们将介绍Web科学这一新兴的跨学科领域56把网络作为主要研究对象。我们展示了由Web设计支持的社交交互、强制支持它们的可伸缩和开放的应用程序开发以及这些大型应用程序的体系结构和数据需求之间存在着重要的相互作用(参见图1).然而,这些层次之间关系的研究常常受到学科边界的阻碍,学科边界倾向于将潜在网络的研究与社会应用的研究分离开来。我们确定了其中的一些关系,并简要回顾了计算中与Web相关的研究的现状。我们主要专注于确定研究人员(作为Web科学家)需要探索的新出现的和极具挑战性的问题。

回到顶部

这是什么?

物理科学通常被认为是一门分析学科,旨在寻找产生或解释观察到的现象的规律,而CS主要是(尽管不是唯一的)合成的,因为形式主义和算法是为了支持特定的期望行为而创建的。网络科学有意地寻求合并这两种范式。我们需要将Web作为一种现象来研究和理解,同时也需要将其作为一种为未来的增长和能力而设计的东西。

在微观层面上,Web是人工语言和协议的基础设施;这是一项工程。然而,正是人类在创造、链接和消费信息的过程中产生了Web行为,使其成为宏观尺度上的涌现属性。这些特性通常会产生令人惊讶的特性,需要新的分析方法来理解。有些是理想的,因此需要进行工程设计;其他的则是不受欢迎的,如果可能的话,应该被设计掉。我们还需要记住,网络是更广泛的人类互动系统的一部分;它深刻地影响了社会,每一次新出现的浪潮都创造了新的挑战和机会,使比以往任何时候更广泛的人口阶层能够获得信息。


大型系统可能具有无法通过分析微观技术和/或社会效应预测的突发特性。


理解Web的最好方法似乎是将其视为一组协议,可以研究这些协议的属性,并分析各个应用程序的算法属性。然而,Web不是(现在仍然不是)使用指定、设计、构建、测试开发周期构建的,CS传统上被视为软件工程的最佳实践。

图2概述了一种看待Web开发的新方法。一个软件应用程序是基于适当的技术(如算法和设计)和预想的“社会”结构设计的;谈论在一台机器上为单个用户构建的Web应用程序确实是矛盾的。该系统通常在一个小小组中测试或在有限的基础上部署;因此测试了系统的“微观”特性。在某些情况下,当越来越多的人接受微系统时,就会加速“病毒式”扩展。例如,当第一个流行的网络浏览器Mosaic在1992年公开发布时,用户数量迅速增长了好几个数量级,第一年的下载量就超过了100万次;最近的例子是,考虑在Flickr上分享照片,在YouTube上上传视频,以及像mySpace和Facebook这样的社交网站。

宏观系统,即许多用户以通常无法预测的方式相互作用的微观系统的使用,本身要有趣得多,通常必须以不同于微观系统的方式进行分析。此外,这些宏观系统产生了在微观尺度上不会发生的新挑战;例如,Mosaic的广泛部署导致了在日益增长的Web上寻找相关材料的需求,因此搜索成为一个重要的应用程序,后来成为一个独立的行业。在其他情况下,大型系统可能具有无法通过分析微观技术和/或社会效应预测的涌现特性。处理这些问题可以导致后续技术的发展。例如,搜索引擎的巨大成功不可避免地产生了与算法博弈的技术(一个意想不到的结果),以提高搜索排名,进而导致更好的搜索技术的发展,以击败博弈。

我们理解什么在Web上成功以及如何开发更好的Web应用程序的本质是,我们必须创建新的方法来理解如何设计系统以产生我们想要的效果。今天我们所能做的最好的就是在微观层面上进行设计和构建,希望达到最好的效果,但是我们如何知道我们已经构建了正确的功能来确保预期的宏观效果呢?我们如何预测其他副作用和宏观的涌现特性?此外,由于一种特定Web技术的成功或失败可能涉及用户之间的社会交互的各个方面,这是我们稍后会讨论的话题,因此理解Web不仅需要对技术问题进行简单的分析,还需要对可能数百万用户的社会动态进行分析。

鉴于网络的广度及其固有的多用户(社交)特性,其科学必然是跨学科的,至少涉及数学、计算机科学、人工智能、社会学、心理学、生物学和经济学。我们邀请计算机科学家通过解决网络的广泛采用及其对社会结构、政治系统、商业组织和教育机构的深远影响所带来的挑战来扩展这门学科。

回到顶部

在网络图表下面

理解Web的一种方法是将其看作一个图,图的节点是Web页面(定义为静态HTML文档),而图的边是这些节点之间的超文本链接。这被命名为“网络图形”22,其中还包括第一个相关分析。Kleinberg等人给出了Web图的入度。3.库马尔等人。24服从幂律分布;Broder等人也发现了类似的效果。10用于图中顶点的外分支。Dill等人的一个重要结果。12显示,通过各种方法生成的大量Web样本都具有类似的特性,这在Web图的增长中非常重要,据2005年报道,每天有大约700万个新页面。17关于Web图是如何增长的,以及哪些模型能最好地捕捉它的演变,已经提出了各种模型;参见Donato等人。14分析了其中的一些模型及其特性。

随着对图及其增长的分析,人们设计了许多算法来利用图的各种属性。例如,HITS算法和PageRank9假设从一个页面插入到另一个页面的超链接可以被视为对被链接页面的“权威性”的某种认可,这一假设导致了用于在Web上查找页面的强大搜索引擎的发展。尽管现代搜索引擎在这些页面权威计算之外使用了许多启发式方法,部分原因是那些试图欺骗算法并获得更高排名的竞争压力,但这些基于Web图的模型仍然构成了Web搜索背后关键爬虫和排名评估算法的核心。

此Web图中的链接表示使用GET请求调用HTTP协议的结果的单个实例化,该请求返回文档的特定表示形式(在本例中是HTML页面),该文档基于作为整个Web通用标识符的通用资源标识符(URI)。因此,例如,在标准Web浏览器中输入的URI http://www.acm.org/publications/cacm调用超文本传输协议(HTTP)并返回一个HTML页面,其中包含将出版物Renown描述为的内容ACM的通信。但是请注意,内容本身包含其他uri,这些uri本身是指向同样显示的对象(如图标和图像)的指针,并且页面本身的格式化可能需要检索其他资源(如级联样式表)或XML DTD文档。因此,我们可能天真地认为,从一个研究小组的网页到一篇文章的单个链接通信Page实际上涉及到多个服务器之间的多个请求;在编写本文时,输入的URI通信将导致针对7种不同类型的Web格式产生20多个不同的HTTP-GET请求。爬虫程序可以捕获这些链接,并将Web图创建为Web链接的静态快照。

然而,Web图只是Web的一种抽象,它基于Web功能的处理和协议的一部分。虽然Web图是无标度的这是一个重要的结果,但正是我们现在称为Web的协议和服务的设计使其成为可能。中定义的一组核心设计组件构建了Web万维网的架构,第一卷21作为“资源的标识、资源状态的表示以及支持空间中代理和资源之间交互的协议”。

Web的一个特性是,根据请求的细节,可以向不同的请求者提供不同的表示。例如,根据对客户机隐藏的条件(例如后端服务器群中处理请求的特定机器)和服务器对响应的定制,生成的HTML可能会有所不同。还可以使用表示以前状态的cookie,根据以前的行为和对相同或其他站点的访问,导致不同的用户看到不同的内容(因此在Web图中有不同的链接)。这种依赖于用户的状态在当前的web图模型中没有直接考虑到。

Web作为Internet的一种应用程序,也有其他方法不能简单地使用链接超文本页面的准静态图模型进行分析。例如,许多Web站点使用Web表单访问服务器背后的大量信息,而这些信息(有时称为“深层Web”)在Web模型中是不可见的。对于许多站点(其中应用程序的数据形成一个链接的Web),链接不是显式的,并且使用HTTP-POST请求而不是Web图中的http - get请求。在其他情况下,这些站点生成复杂的uri,使用GET请求传递状态一个,从而模糊了实际资源的身份。

携带状态的uri在Web应用程序中大量使用,但到目前为止,大部分未进行分析。例如,在2007年6月的一次演讲中,谷歌的工程副总裁Udi Manber谈到了为什么网络搜索如此困难的问题,25解释说,平均每天,谷歌看到的20% - 25%的搜索从未被提交过,这些搜索中的每一个都生成一个唯一标识符(使用特定于服务器的编码信息)。因此web图模型将只表示链接到www.google.com节点的请求文档(无论是用户请求还是由动态广告内容请求生成的请求)。但是,如果如广泛报道的那样,谷歌每天接收超过1亿个查询,并且其中20%是惟一的,那么每天应该在Web图中显示超过2000万个链接(表示为编码搜索词的新uri),或者大约每秒显示200个链接。这些联系遵循同样的幂律吗?同样的增长模型能解释这些行为吗?我们根本不知道。

仅仅将Web作为一个图形来分析也会忽略它的许多动态(特别是在短时间尺度下)。Web用户所知道的许多现象(例如服务器泛滥导致的拒绝服务攻击,以及在得到响应之前需要多次单击同一个链接)不能用Web图模型解释,而且通常不能用适合这种基于图的分析的术语表示。在网络级别表示它们,忽略协议及其工作方式,也会错过Web的关键方面,以及每秒与数千台服务器进行数百万个请求的交互所产生的大量行为。十多年前就对网络动态进行了分析,20.但是(i) Web内容数量的指数级增长,(ii) Web服务器和应用程序数量、能力和多样性的变化,以及(iii)来自世界各地的不同用户数量的不断增加,如果不创建和验证Web动态的新模型,今天就不可能进行类似的分析。这样的模型还必须特别注意Web体系结构的细节,以及那里实际发生的交互的复杂性。


今天的交互应用是非常早期的社交机器,因为它们彼此之间很大程度上是孤立的。


此外,现代、复杂的Web站点通过在浏览器中运行大型脚本系统提供强大的用户界面功能。这些应用程序通过Web api访问底层远程数据模型。这种应用程序体系结构允许用户和企业家利用用户机器的处理能力和大量传统Web服务器的存储能力快速构建许多新形式的全局系统。就像基本的Web一样,每个这样的系统的有趣之处主要在于其涌现的宏观属性,而我们对此知之甚少。这样的系统稳定吗?它们公平吗?它们是否有效地创造了一种新的货币形式?如果他们这样做了,是否应该进行监管?

类似地,许多用户生成内容的网站现在存储个人信息,但却有相当简单的系统来限制访问用户的“朋友”。这些信息无法用于大规模分析。一些其他网站必须被允许以用户或朋友的身份访问这些网站;为了实现这一点,部署了许多三方身份验证协议。因此,一个复杂的系统是一块一块地构建起来的,没有为用户保证不变量(例如“我的雇主永远不会看到这张照片”)。

本文的目的不是深入讨论Web协议的细节或Web建模方法的相对优点,而是强调它们对Web当前和持续的工作非常关键。理解协议和问题对于理解Web作为一种技术结构以及分析和建模其动态特性非常重要。要想大规模地设计具有理想属性的Web系统,我们需要了解这些动态。因此,这种分析和建模对计算机科学家来说是一个重要的挑战,如果他们能够理解未来Web的增长和行为,以及以一种显著减少命中或落空的方式设计具有所需属性的系统。

回到顶部

从权力法律到人民

基于数学的Web分析还涉及到另一个潜在的失败。尽管各种Web站点的结构和使用(从数学角度来看)可能具有有趣的属性,但这些属性在解释站点随时间变化的行为时可能并不十分有用。考虑下面的例子:基于维基的在线百科全书维基百科(www.wikipedia.org)包含超过200万篇英语文章和超过600万篇所有语言的文章。它们是超链接,我们可以问超链接的结构是否与一般Web上的链接相似,或者由于这是一个托管的语料库,它们是否还有其他属性。

回答问题的方式有很多种;图3显示其中一个的结果。在本例中,DBPedia (dbpedia.org)是使用资源描述框架(RDF)的带标签链接的维基百科链接结构的转储,已经就链接标签的使用进行了分析;也就是说,我们关注的是维基百科的结构,而不是其页面的语言内容。该图显示了在原始Web图分析中发现的类似zipf的分布。也有一些证据16还有很多猜测29在基于web的标签系统中使用标签可以看到类似的效果。目前的研究也在探索这些结果是否背离了优先依恋等模型3.用来解释Web图形的无标度特性。

不幸的是,无论如何解释这些影响,维基百科使用的另一个方面都不能用这些模型来解释,也不一定遵循这些属性。Wikipedia是建立在MediaWiki软件包(www.mediawiki.org/wiki/MediaWiki)之上的,该软件包是免费的,可在Wikipedia之外的许多其他Web应用程序中使用。虽然其中一些也取得了成功,但许多都未能产生重大的使用。纯粹的“技术”解释无法解释这一点;相反,维基百科的组织结构及其用户需求是其成功于其他基于相同代码库构建的系统的原因。创建、编辑和跟踪文章的模型由底层技术提供。这种由人类以技术允许的方式进行互动所形成的社会模式更难解释。任何“社会机器”的动态都是高度复杂的,来自多个学科的数十篇学术论文都是关于它的;en.wikipedia.org/wiki/Wikipedia:Wikipedia_in_academic_studies使用维基百科本身来维护一个最新的参考列表。

社会机器的概念在编织的网络,8它假设Web的架构设计将允许开发人员,也就是最终用户,使用计算机技术来帮助提供社交系统的管理功能,因为它们是在线实现的。社交机器包括底层技术(对于维基百科来说是mediaWiki),还包括用于管理技术的规则、策略和组织结构。如今,这样的例子在网络上比比皆是。考虑博客支持系统(如LiveJournal和WordPress)的应用程序设计与blogrols、永久链接和trackback提供的社交机制的耦合,这些机制导致了所谓的博客圈。类似地,MySpace和Facebook等社交网站使用的协议也有很多共同之处,但这些网站的成功或失败取决于它们所支持的规则、政策和用户社区。鉴于Web技术的成功或失败往往依赖于这些社交功能,设计成功应用程序的能力需要更好地理解系统的社交方面的功能和特性。b

今天的交互应用是非常早期的社交机器,因为它们彼此之间很大程度上是孤立的。我们假设:(i)有些形式的社会机器有一天会比我们今天所拥有的更有效;(ii)不同的社会过程在社会中相互联系,因此必须在网络上相互联系;以及(iii)它们不太可能通过单个项目或站点的一次刻意努力而得到发展;相反,需要技术来允许用户社区构建、共享和调整社交机器,这样成功的模型才能在试验、使用和改进中不断发展。

在新一代互动社会机器被创造出来并以这种方式进化之前,必须解决许多研究挑战和问题:

  • 社会机器的基本理论属性是什么?需要什么样的算法来创建它们?
  • 需要什么样的底层架构原则来指导这个社交软件的新Web基础设施组件的设计和高效工程?
  • 我们如何扩展当前的Web基础设施,以提供机制,使信息共享的社会属性明确,并保证这些信息的使用符合相关的社会政策期望?而且
  • 文化差异如何影响网络社交机制的发展和使用?由于Web确实是全球性的,一种文化所需的属性可能会被其他文化视为适得其反。网络基础设施能否帮助弥合文化差异和/或增进跨文化理解?

此外,人类与信息交互的一个关键方面是我们表示和推理诸如可信度、可靠性、对信息使用的默认期望以及关于隐私、版权和其他法律规则等属性的能力。虽然其中一些信息现在可以在Web上获得,但我们缺乏正式表示和计算这些信息的结构。传统的密码安全研究和众所周知的访问控制策略框架都未能在今天的在线环境中应对这些挑战,因此不足以作为未来社交机器的基础。最近关于隐私正式模型的研究b已经证明了传统的隐私保护加密方法在开放的Web环境中可能会失败。版权执行方面的类似问题也阻碍了网络上商业和学术信息的流动。27为此,我们正在追求的一个典型的Web科学研究领域涉及跨学科研究,以增强Web体系结构与技术和社会公约,增加个人对管理信息使用的社会和法律规则的责任。31开发可扩展的政策处理模型的持续失败将阻碍Web成为交流文化、科学和政治信息的最佳媒介的能力。


网络正在以一种甚至比最有知识的研究人员的观察能力还要快的速度变化着。


此外,我们可以从在网络上创建和发布信息的新协作风格的急剧增长中看到,我们赖以判断可信度和准确性的许多社会机构正在我们的在线信息生活中消失。要能够设计未来的Web,不仅需要将其理解为计算结构,还需要了解它如何与用户交互并支持用户之间的交互。

探索网络对社会影响的研究的一个重要方面涉及使用网络基础设施支持动态人际互动的在线社会。这篇文章在trout.cpsr.org和其他类似的文章中探讨了网络如何鼓励更多的人参与政治领域。将它与新兴的Web研究以及技术和社会需求的共同进化结合起来是设计未来Web的一个重要焦点。30.

回到顶部

数据的网络

这个新兴的研究领域涉及大量使用由许多所谓的Web 2.0技术提供的标记。文章、博客、照片、视频和所有其他Web资源都可以使用用户生成的关键字或标记进行注释,稍后可以使用它们搜索或浏览这些资源。关于如何将“大众分类法”(通过使用标记而出现的分类法)用作元数据,以帮助解释所描述对象的内容,已经做了很多工作。

如今,标签产生兴趣的一个方面是标签需要“社会背景”。26许多标签所包含的术语在一般上下文中非常模糊。例如,在Flickr上,名字是很受欢迎的标签,尽管它们不是很好的通用搜索词。另一方面,在特定的社会环境中(例如特定的人的照片),相同的标记可能很有用,因为它可以指定特定的个人。标签作为元数据的使用通常依赖于这样的上下文,因此这些引用中的“网络效应”是有社会组织的。19

元数据的更大用途涉及语义Web技术的最新应用7代表了一个重要的范式转变,这是新兴Web技术的一个重要元素。语义Web代表了底层网络基础设施的一个新的抽象级别,就像早先的Internet和Web所做的那样。互联网允许程序员创建可以通信的程序,而不必担心通信必须通过的电缆网络。Web允许程序员和用户处理一组相互关联的文档,而无需关心存储和交换这些文档的计算机的细节。

语义Web将允许程序员和用户引用现实世界中的对象——人、化学物质、协议、星星等等,而无需关心描述这些抽象和具体的东西的底层文档。虽然基本的语义Web技术已经被定义并被更广泛地部署,但很少有人试图解释这些新功能对使用它们的人在Web内的连接的影响。28

语义Web领域反映了活动的两个基本联系。一个倾向于涉及数据(和Web),另一个倾向于领域(和语义)。第一种方法主要基于数据集成应用程序的创新,着重于开发只使用有限语义但提供强大机制的Web应用程序,用于使用作为Web基础的uri链接数据实体。在RDF的支持下,这些应用程序主要关注使用新兴的SPARQL语言查询面向图的三存储数据库,该语言帮助创建使用基于rest的模型的Web应用程序和门户,集成来自多个数据源的数据,而不需要预先存在的模式。第二种主要基于Web本体语言(Web Ontology Language,简称OWL),它希望提供可以用于表示应用程序域的表达语义描述的模型,并为需要知识库的Web和非Web应用程序提供推理能力。

当前的研究正在探索语义Web的数据库如何与传统数据库方法相关联,以及如何将语义Web存储扩展到非常大的规模。1就建模而言,一个目标是开发工具来加速大型知识库中的推理(而不牺牲性能),包括如何在表达性和推理之间进行权衡,以提供Web规模所需的功能。15由数据驱动的“自底向上”工具和由Web本体驱动的“自顶向下”技术的市场开始出现。随着新的开源技术与传统Web服务器很好地集成,为语义Web创建后端(自下而上)正从一种神秘的艺术转变为一种新兴的Web应用程序编程方法。同时,新的工具支持本体开发和部署(自顶向下),数以万计的OWL本体可用于启动新的领域建模工作。此外,使用针对Web修改的基于规则的推理的方法也得到了关注。4设计未来的Web包括这些新兴技术的设计和使用,以及它们与传统数据库方法的区别,在一种情况下为语义Web创建后端,在另一种情况下为基于本体的应用程序创建新工具。

语义Web是Web上一项关键的新兴技术,但是,正如我们所讨论的,对于它的最佳用途,以及更重要的是,它的宏观效果可能是什么,存在不同的观点。我们缺乏对Web系统如何开发的更好理解,这使得我们很难知道这种技术将在规模上产生什么样的效果。更多的公开曝光和分享隐藏在数据库中的信息可能会产生什么样的社会后果?更好地理解Web系统如何从微观尺度转移到宏观尺度,将有助于更好地理解它们如何开发以及它们可能产生的潜在社会影响。

回到顶部

结论

Web不同于以前研究过的大多数系统,因为它的变化速度可能与最博学的研究人员观察它的能力相同,甚至可能大于这种变化速度。一个不可避免的事实是,人类社会的未来现在与网络的未来不可分割地联系在一起。因此,我们有责任确保未来的Web开发使世界变得更美好。公司有责任确保他们在网络上开发的产品和服务不会产生危害社会的副作用,政府和监管机构有责任理解和预见他们制定和执行的法律和政策的后果。

我们无法达到这些目标,直到我们更好地理解复杂的,跨学科的动力驱动着网络的发展——网络科学的主要目标。就像气候变化科学家必须找到方法来收集和分析证据,以证明或反驳人类行为对地球气候影响的理论一样,网络科学家需要新的方法来收集证据,并找到方法来预测人类行为将如何影响一个以惊人速度进化的系统的发展。我们还必须考虑到,如果某些人或所有人都不能访问Web,那么社会将会发生什么。我们还必须提高大公司和政府的意识,让他们认识到,一些看似相对较小的决策的后果可能会通过影响今天的Web开发而深刻地影响未来的社会。

计算在Web科学视野中扮演着至关重要的角色,我们今天对Web的大部分了解都是基于我们以计算的方式对它的理解。但是,正如我们在这里所探讨的,为了能够设计未来成功的Web应用程序,仍然必须进行大量的研究。我们必须将Web理解为一个动态的、不断变化的实体,探索由Web技术基础所支持的人们的“宏观”交互所产生的涌现行为。因此,我们必须理解“社交机器”,这可能是Web应用程序成功或失败的关键区别,并学会以允许相互链接和共享的方式构建它们。

回到顶部

致谢

图2摘自蒂姆·伯纳斯·李2007年的演讲(www.w3.org/2007/Talks/1018-websci-mit-tbl/Overview.html)。我们也感谢WSRI科学理事会(webscience.org/about/people/)的其他成员就Web科学的目标以及Web与计算机和信息科学的相互作用提供的意见。我们感谢伦斯勒理工学院的Konstantin Mertsalov在幂律一节中所讨论的DBpedia分析。

回到顶部

参考文献

1.D. Abadi, A. Marcus, S. Madden和K. Hollenbach .使用垂直分区的可伸缩语义Web数据管理。在33人会议记录理查德·道金斯超大数据库国际会议(奥地利维也纳,9月2327日)。VLDB捐赠基金,海德堡,2007年。

2.巴克斯卓,L.,德沃克,C.,克莱因伯格,J.你为什么是R3579X?匿名社交网络,隐藏模式,结构隐写术。在16届会议记录th国际万维网会议(812年5月,加拿大艾伯塔省班夫)。ACM出版社,纽约,2007年。

3.Barabasi .和Albert .随机网络中缩放的出现。科学286(1999)。

4.Berners-Lee, T., Connolly, D., Kagal, L., Scharf, Y.和Hendler, J. N3Logic:一个万维网的逻辑框架。逻辑规划理论与实践“,(2008)。

5.Berners-Lee, T., Hall, W., Hendler, J., Shadbolt, N.和Wietzner, D.创建网络科学。科学311(2006)。

6.Berners-Lee, T., Hall, W., Hendler, J., O'Hara, K., Shadbolt, N.和Weitzner, D. Web科学的框架。网络科学的基础和趋势1(2006年9月)。

7.Berners-Lee, T., Hendler, J.和Lassila, O.语义网。科学美国人(2001年5月)。

8.T.伯纳斯-李和M.费舍蒂。编织网络:万维网的原始设计和最终命运。哈珀·柯林斯,纽约,1999年。

9.布林,S.和佩奇,L.大规模超纹理网络搜索引擎的解剖。1997年4月711日,在第六届国际万维网会议上发表。

10.Broder, A., Kumar, R., Maghoul, F., Raghavan, P., Rajagopalan, S., Stata, R., Tomkins, A.,和Wiener, J.网络中的图结构。在第九届国际万维网会议论文集(荷兰阿姆斯特丹,1519年5月)。爱思唯尔,阿姆斯特丹,荷兰,2000年。

11.Dean, J.和Ghemawat, S. MapReduce:大型集群的简化数据处理。在第六届操作系统设计与实现研讨会论文集(12月68日,旧金山)。USENIX协会,伯克利,加州,2004年。

12.Dill, S., Kumar, R., McCurley, K., Rajagopalan, S., Sivakumar, D.和Tomkins, A.网络中的自相似性。在27国会议记录th超大数据库国际会议(1114年9月,意大利罗马)。摩根·考夫曼出版公司,旧金山,2001年。

13.Domingos, P., Golbeck, J., Mika, P.和Nowak, A.社交网络和智能系统。IEEE智能系统,趋势与争议1(1月/ 2月。2005)。

14.Donato, D., Laura, L., Leonardi, S.和Millozzi, S.网络作为一个图表:我们还有多远。美国计算机学会互联网技术汇刊1(2007年2月)。

15.A. Fokoue, A. Kershenbaum, Ma, L., E. Schonberg, E.和K. Srinivas。在国际语义网会议论文集(11月59日,乔治亚州雅典)。柏林,海德堡,2006年。

16.高尔德和休伯曼。协同标记系统的结构(2005);arxiv.org/abs/cs/0508082。

17.Gulli, A.和Signorini, A.可索引的Web有超过115亿页。在14人的特别兴趣曲目和海报上th国际万维网会议(日本千叶,1014年5月)。ACM出版社,纽约,2005年。

18.Web 3.0:语义网养鸡场。IEEE计算机41,1(2008年1月)。

19.Hendler, J.和Golbeck, J. Metcalfe定律,Web 2.0和语义Web。网络语义学杂志1(2008年2月)。

20.社会困境与网络拥塞。277年科学,5325(1997年7月)。

21.雅各布,我和沃尔什,N。万维网的架构,第一卷。W3C推荐,2004年12月15日;www.w3.org/TR/webarch/。

22.Kleinberg, J., Kumar, R., Raghavan, P., Rajagopalan, S.和Tomkins, a . Web作为一个图:度量、模型和方法。在第五届计算与组合学国际年会论文集(东京,2628年7月)。施普林格,纽约,1999年。

23.超链接环境中的权威来源。ACM学报46,5(1997年9月)。

24.库马尔,R., Raghavan, P., Rajagopalan, S.和Tomkins, A.在网上搜寻新兴的网络社区。在第八届国际万维网会议论文集(1114年5月,多伦多)。爱思唯尔北荷兰公司,纽约,1999。

25.Manber U。为什么搜索是一个困难的问题。在超新星2007(旧金山,2008年6月1618日)上的演讲;www.readwriteweb.com/archives/udi_manber_search_is_a_hard_problem.php

26.m-YouTube移动UI:基于社会影响力的视频选择。在12人会议记录th国际人机交互会议(北京,2227年7月)。施普林格,2007年。

27.版权的合理使用原则和数字数据。Commun。ACM 37岁1(1994年1月),2127。

28.Shadbolt, N, Hall, W,和Berners-Lee, T.语义网的重新审视。IEEE智能系统21,3(2006年5月/ 6月)

29.Shirky C。幂律、博客和不平等在Clay Shirky的博客(2003);www.shirky.com/writings/powerlaw_weblog.html。

30.网络科学:对计算机科学的一份挑衅的邀请。Commun。ACM 50,6(2007年6月),2527。

31.魏茨纳,H.阿贝尔森,T.伯纳斯-李,J.费根鲍姆,J.亨德勒,J.萨斯曼,G.信息责任。Commun。ACM 51岁,6(2008年6月)

32.维茨纳,D.汉德勒,J.伯纳斯-李。,T., and Connolly, D. Creating a policy-aware Web: Discretionary, rule-based access for the World Wide Web. In网络与信息安全,E.法拉利和B. Thuraisingham, Eds。IRM出版社,好时,PA, 2006。

回到顶部

作者

亨德(hendler@cs.rpi.edu)是纽约特洛伊伦斯勒理工学院计算机和认知科学的无绳世界主席。

奈杰尔Shadbolt(nrs@ecs.soton.ac.uk)是英国南安普顿大学人工智能教授、电子与计算机科学学院副院长

温迪大厅(wh@ecs.soton.ac.uk)是英国南安普顿大学计算机科学教授

蒂姆•伯纳斯-李(timbl@csail.mit.edu)是万维网联盟的主任,3Com创始人主席,是麻省理工学院计算机科学和人工智能实验室的高级研究科学家,位于马萨诸塞州剑桥市。

丹尼尔Weitzner(djweitzner@csail.mit.edu)是麻省理工学院分散信息小组主任,麻省理工学院计算机科学和人工智能实验室的主要研究科学家。

回到顶部

脚注

a.这些字符,包括?紧跟关键字的#、=和&可能跟在URI的最后一个“斜杠”后面,从而生成动态内容服务器经常生成的长URI。

b.当我们说“成功”或“失败”时,我们指的不是决定Facebook或MySpace是否会吸引更多用户的商业因素,而是这些网站在提供它们所设计的特定类型的社交互动方面的成功或失败。

这项工作的资金来自美国国家科学基金会(政策感知网络和透明感知数据挖掘项目)、iARPA(端到端语义问责制)、英国工程和物理科学研究委员会(先进知识技术项目)、美国陆军研究实验室和英国国防部(U.S./U.K.信息技术联盟)。我们也感谢工业和个人对作者在RPI、南安普顿和麻省理工学院的研究以及网络科学研究计划(www.webscience.org)的捐赠。

DOI: http://doi.acm.org/10.1145/1364782.1364798

回到顶部

数据

F1图1。Web支持的社交交互对Web应用程序提出了要求,反过来又对Web基础设施提出了进一步的要求。

F2图2。Web为软件工程和应用程序开发提出了新的挑战。

F3图3。对维基百科链接结构的分析结果,与链接标签的使用有关,而不是页面的语言内容。

回到顶部


©2008 acm 0001-0782/08/0700 $5.00

允许为个人或课堂使用本作品的全部或部分制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。

数字图书馆是由计算机协会出版的。版权所有©2008 ACM, Inc.


没有找到条目

Baidu
map