近年来,互联网在全球范围内的使用增长迅速,非英语地区增长最快。例如,从2000年到2007年,拉丁美洲和中东地区的网民人数分别增长了577.3%和920.2% [9].与此同时,中国内地域名注册数量(.cn)每年激增137.5% [2,推动了中文网页的增长。中文是互联网上第二大流行语言。与此同时,阿拉伯语网页内容估计每年翻一番[1].这种增长创造了对一些非英语语言更好的网络搜索和浏览的需求。但是,现有的Web门户可能无法满足这一点,因为它们主要服务于讲英语的用户。
阿拉伯语是世界上第五大最受欢迎的语言,在约22个国家有超过2.84亿人使用,但阿拉伯语网络仍处于起步阶段,占网络内容的比例不到1%。
虽然关于网络搜索的研究成果很多,但关于非英语网络搜索的理论和实证方面的研究却很少。在这里,我回顾了多语言世界中的web搜索引擎,并描述了一个试图解决这些问题的框架。通过对汉语、西班牙语和阿拉伯语三种原型Web搜索门户的实验研究,揭示了如何更好地支持非英语Web搜索。
英语一直是网络信息搜索的主要语言。但对于许多依赖母语搜索和浏览网页的非英语用户来说,情况并非如此。信息寻找的过程包括问题识别、定义、解决和提出解决方案的各个阶段[12].搜索和浏览是两种主要的信息获取活动。在搜索过程中,用户首先将目标分解为较小的问题,然后制定关键字查询,最后通过串行搜索或系统抽样对结果进行评估。在浏览时,用户首先将他们的一般信息需求转化为一个问题,然后通过诸如自动摘要、聚类、可视化和Web目录等浏览支持工具来浏览Web内容和超链接,最终通过浏览这些内容和超链接来评估结果。
支持Web搜索和浏览的技术包括元搜索和Web页面预览和概述。由于不同的搜索引擎使用不同的方法收集页面,索引和排名,他们可能会在他们的搜索结果中包含系统偏差[10].元搜索是缓解这一问题的一种很有前途的方法[4].通过将查询发送到多个搜索引擎,并对每个引擎排名靠前的结果集进行整理,元搜索可以大大减少搜索结果的偏差,提高覆盖率。此外,检索后分析为搜索引擎返回的结果提供了附加价值。文本分类技术帮助过滤Web页面内容,并以摘要的形式提供单个Web页面的预览。文档分类技术有助于对网页进行分组,文档可视化技术有助于增强人类在浏览互联网搜索结果时的认知能力。虽然在一些搜索引擎中使用了元搜索,包括excite.com和vivisimo.com,但在非英语搜索引擎中很少使用元搜索和信息预览和概述。
在一个多语言的世界中,Web搜索的特点是跨地区和跨国家使用一种语言,在网站设计和功能上产生区域性影响。例如,西班牙语在欧洲、北美和南美被广泛使用。阿拉伯语是中东和北非的主要语言。中文是中国大陆、香港和台湾的主要语言。Fast搜索引擎(www.fastsearch.com)的用户主要是欧洲人,他们比Excite搜索引擎的用户更频繁地输入查询,后者更关注电子商务主题[11].这些结果显示了网络上的区域差异。
一些主要的搜索引擎为非英语用户提供搜索服务。谷歌拥有160多个本地域名,允许用户将搜索结果限制在117种语言的页面上,提供英语和8种欧洲语言(荷兰语、法语、德语、希腊语、意大利语、葡萄牙语、俄语和西班牙语)、3种东方语言(中文、简体和繁体、韩语和日语)和阿拉伯语之间的翻译服务。AltaVista的Babel Fish (Babel。altavista.com)提供更多语言间的成对翻译服务(阿拉伯语除外)。雅虎也提供类似的翻译服务。,which has regional sites in 24 countries supporting Web search in 37 languages used by 411 million unique users each month. Yahoo!'s diversified services, including online shopping, auctions, email, news, blogs, partnerships with content providers, and instant messaging, enable it to fit comfortably into most aspects of users' lives. Meanwhile, MSN Search has 42 regional sites located in different countries. Its U.S. site supports a local search service for searching information in the user's geographic area. Like Yahoo!, MSN also provides such services as email, instant messaging, news, and entertainment information. Its connection with Microsoft Windows and Internet Explorer has helped it earn an important share in the search market (monitored by SearchEngineWatch.com, a Web site that provides lists and reviews of major and specialized search engines).
虽然对所有语言的搜索引擎的全面回顾超出了我的范围,但我已经回顾了三种新兴语言的主要Web搜索引擎:中文、西班牙语和阿拉伯语。表1列出使用这些语言的主要搜索引擎和门户,突出显示重要的内容和功能特性。中文是中国大陆、台湾和香港人使用的主要语言。这些地区的语言编码、词汇、经济和社会存在显著差异。在中国大陆,百度是许多大企业的主要搜索引擎,包括戴尔(中国),联想和雅虎!中国它已经收集了来自中国大陆、香港、台湾和其他地区的10亿多个中文网页,而且每天还以数十万个网页的速度增长。中国的另一个主要门户网站,新浪网,提供全面的服务,包括网络搜索,电子邮件,新闻,商业名录,娱乐和天气预报。凭借丰富的内容和庞大的用户基础,新浪拥有自己的搜索引擎iAsk.com,该引擎利用网页内容和使用情况信息对网页进行排名。中国大陆的其他搜索引擎包括搜狗(Sogou.com)和中搜网(Zhongsou.com)。
台湾的两大搜索门户是Openfind和Yam。成立于1998年的Openfind.com.tw建议相关术语来改进用户的搜索查询,允许他们从每个搜索结果中找到其他相关条目。Yam.com成立于1995年,提供台湾各种媒体的综合在线搜索服务,包括网站和网页、新闻、论坛留言和本地活动。从2000年开始,Yam.com与谷歌合作,提供搜索服务。
由于香港的双语文化,人们在网上搜索的时候会同时使用英语和中文。雅虎香港(hk.yahoo.com)返回各种类别的结果,包括网站、页面和新闻。成立于1997年的Timway.com搜索超过3万个香港网站,分为3000多个组,每月访问量达260万次。
西班牙语是美国第二受欢迎的语言,也是西班牙和大约22个拉丁美洲国家的主要语言,这些国家的区域搜索引擎提供搜索和浏览服务。Terra.com拥有19个地区性网站,为美国、西班牙和拉丁美洲的310多万互联网用户提供服务。2002年的一项盖洛普民意测验将Terra描述为西班牙最受欢迎的搜索引擎;法国电信的子公司Orange.es(前身是Wanadoo)排名第二。雅虎Telemundo(西班牙,telemundo.yahoo。西班牙版的Yahoo!服务于美国和拉丁美洲,提供了一个由人工编辑编辑的Web目录,对数百万个列出的网站进行分类。雅虎Telemundo补充了Inktomi和谷歌的效果。 Established in 1995 as one of the first search engines to search Spanish information on the Web, BIWE.com provides a variety of services, including a Web directory, email, entertainment, and market information for Spanish-speaking users. Meanwhile, Quepasa.com, with headquarters in the U.S., is a bilingual Web portal (Spanish/English) serving Spanish-speaking populations in the U.S. and Latin America.
我建议系统开发人员和IT经理将浏览支持和分析工具合并到他们的在线搜索系统和门户中,以增强传统的文本列表显示。
阿拉伯语是世界上第五大最受欢迎的语言,在约22个国家有超过2.84亿人使用,但阿拉伯语网络仍处于起步阶段,占网络内容的比例不到1%。四大搜索引擎为阿拉伯人提供全面的服务和广泛的内容覆盖。Ajeeb.com是一个由Sakhr软件公司于2000年推出的双语门户网站(英语/阿拉伯语),包括一个多语言词典(阿拉伯语/英语/法语/土耳其语/德语)和一个网络目录“Dalil Ajeeb”,Ajeeb声称这是世界上最大的在线阿拉伯语目录。另一个提供综合服务的阿拉伯文搜索门户网站alawaba.com支持阿拉伯文和英文页面的搜索;结果根据语言和相关性进行分类。它还可以对谷歌、雅虎等其他搜索引擎进行元搜索。,Excite, Alltheweb, and Dogpileand provides a comprehensive directory related to 22 Arab countries. Launched in 2000, United Arab Emirates-based Weyak (www.weyak.ae/) offers a range of online services covering more than 1.25 million Arabic Web pages. Based in the U.S. (in New Hampshire), Ayna.com provides an Arabic Web directory, an Arabic search engine, and other services, including a trilingual (Arabic/English/ French) email system, chat, greeting cards, personal homepage hosting, and commercial classified ads. Claiming more than 700,000 registered users, Ayna provides access to more than 25 million pages per month. Alexa Research ranks Ayna among the three leading Web sites in the Arab world.
我的研究发现,中文、西班牙语和阿拉伯语的现有搜索引擎通常以长列表文本项的形式呈现结果。虽然这样的表示方便查看,但可能会限制用户理解和分析结果的能力。搜索引擎搜索的集合通常是特定于区域的,并且缺乏对其运行环境的全面了解。主要的英语搜索引擎,包括谷歌,支持搜索非英语资源,但不能涵盖特定领域和地区的信息。有必要更好地支持一些新兴非英语语言的Web搜索。在这里,我将描述一个框架,它满足了多语言世界中Web搜索的一些需求。他阐述了图1,该框架由领域集合、元搜索、统计语言处理、web页面摘要、分类和可视化组成。
在使用任何特定语言构建Web门户之前,任何潜在的搜索引擎开发人员都必须进行仔细的领域分析,这反映了区域和语言的差异。为了确保全面覆盖,分析应该审查现有的Web门户和技术,包括该语言的特征,并选择为其开发了该语言的重要Web资源的区域或主题。审查应涵盖区域性搜索引擎、政府和商业网站以及新闻网站,以选择构建特定领域集合或元搜索所需的相关Web内容。与所选域相关的重要关键字和url将作为种子查询或超链接收集起来,以构建集合。
为了管理庞大的用户基础和不断增长的Web内容,许多非英语Web搜索引擎和门户网站都面临着正确组织其内容以支持方便的浏览和搜索的挑战。例如,新浪网在其主页上包含了700多个超链接,每个超链接都用小字体标注了很长的文字描述,这让浏览变得困难,尤其是对没有经验的网络用户来说。因此,需要对检索前后进行分析,以减轻信息过载。
支持这种分析的模块包括编码转换、汇总、分类和可视化。当一种语言被多个地区和国家的人们使用,使用同一种语言的不同版本时,编码转换是必要的。例如,繁体中文和简体中文在书写格式上存在巨大差异,导致信息检索系统中存在两种不同的输入格式;因此,它们需要进行编码转换,以便在两种语言版本之间进行搜索。网页摘要使用语言学和启发式技术从页面中提取关键句子,以表示文章的摘要[8].
分类有助于将搜索结果组织在不同的组中,更容易理解。为了辅助分类过程,基于统计的互信息方法构建的词汇可以提供不同语言中有意义的短语。一种名为“Kohonen自组织地图”的神经网络方法可以用于对Web页面进行分类和可视化,帮助用户在二维拼图地图上导航,以识别一组相似的页面或找到相关的页面。
基于该框架,开发了汉语、西班牙语和阿拉伯语三个原型搜索门户[3.,6].中文门户网站(CBizPort)帮助用户搜索和浏览中国大陆、香港和台湾的商业智能(BI)。这里的BI指的是在商业领域中获取、解释、整理、评估和利用信息的产品[4].CBizPort包括两个版本的用户界面,一个是简体中文,一个是繁体中文,每个版本的外观和感觉都一样。编码转换器依靠一个包含两种编码(Big5和GB2312)各6737个汉字的转换字典,将所有汉字转换为接口版本的编码。门户网站元搜索中使用的八个信息源分别是三个地区的主要中文搜索引擎和与商业相关的门户网站。门户网站的分类器依靠两个中文短语词汇来提取短语,将检索到的Web页面组织到不同的文件夹中,以页面摘要和标题中的关键短语为标签。
西班牙语门户网站(SBizPort)支持搜索和浏览来自22个西班牙语地区的商业信息.除了关键字搜索、摘要和分类(如CBizPort中的那些)之外,SBizPort还提供了一个全面的用于搜索的商业Web页面集合,并支持检索页面的可视化(参见图2).用户可以通过单击一个区域在右侧查看页面列表来可视化Web页面,并通过单击嵌入链接的标题来打开页面。
阿拉伯语门户网站AMedPort(看到图3)重点关注约22个阿拉伯地区的医疗领域,并支持SBizPort提供的所有搜索和浏览功能。AMedPort包括一个自定义的用户界面,具有从右到左的文本显示和一个虚拟键盘,以方便阿拉伯语输入。
60名母语为英语的人参与了实验(详情见[3.,6),以评估该框架在多语言环境中支持Web搜索的可用性(参见表2).在每次实验中(大约一个小时),将一个Web门户与三种语言中每种语言的基准搜索引擎进行比较。将每个主题引入门户和基准搜索引擎,并随机分配不同的任务场景(每个系统一个场景)。每个场景包含三到四个搜索和浏览任务,这些任务基于国家标准与技术研究所文本检索会议(trec.nist.gov)制定的标准。实验中使用的所有问卷均以受试者的母语进行发放。受试者平均花费3分钟完成一个搜索任务,8分钟完成一个浏览任务。系统的使用顺序是随机分配的,以避免由于使用顺序造成的偏差。
通过计算一个被试找到的相关结果的数量与同一被试或专家找到的所有结果的数量之间的比率,几种信息检索测量指标精确度、召回率和F值揭示了系统的搜索和浏览效果。领域专家为判断受试者浏览任务的表现提供了答案。在使用一个系统后,受试者填写了一份问卷,上面有评论和满意度评分(李克特7分量表)。
必须提醒用户,由于自然语言处理中的歧义性和高昂的计算成本,这些工具仍然容易出错。
在CBizPort实验中,30名来自中国大陆、香港和台湾的中文受试者,由3位中国商业学者和从业者担任专家,结果表明,加入CBizPort可以显著提高现有中文搜索引擎的有效性。中文门户网站的摘要和分类器的有效性及其用户满意度没有显著差异。尽管如此,仍有11名受试者表示,摘要和分类器促进了他们的理解和搜索。这些结果表明,CBizPort在搜索和浏览中文商务信息方面具有较强的能力,但其摘要和分类器在准确性和浏览支持方面还有待进一步提高。
在SBizPort的实验中,19名来自哥伦比亚、墨西哥、巴拿马、秘鲁、波多黎各和美国的西班牙受试者和一位资深的西班牙商业顾问担任专家,SOM可视化工具获得了比BIWE(基准搜索引擎)更好的浏览效率,表明该工具有助于缓解信息过载,并有效支持浏览。使用特定领域的集合比不使用它获得了更高的平均准确率和搜索效率,尽管差异不显著。由于返回结果的准确性和相关性,受试者对SBizPort的评价明显优于BIWE。这些结果进一步表明,信息可视化工具可以替代以文本形式在列表中显示搜索结果。
在AMedPort实验中,来自伊拉克、约旦、黎巴嫩、毛里塔尼亚和摩洛哥五个国家的11名阿拉伯受试者和一位阿拉伯微生物学家作为专家,与基准搜索引擎Ayna相比,AMedPort取得了显著更高的平均准确性、效率和满意度(和可比较的浏览效率)。九名受试者表示,AMedPort很有用,比基准测试提供了更多的主题和信息。门户提供了来自许多来源的高质量信息,但其摘要器和分类器都需要改进。
在以各自语言的最佳搜索引擎作为基准的实验中,被证实的结果实际上在统计上是无效的,概率为0.05(或更低)。
实验结果表明,该框架支持多语言环境下的Web搜索。研究发现,检索后分析技术(如摘要和可视化)可以缓解信息过载,但这种改进的程度在不同领域有所不同。在CBizPort研究中,总结和分类并没有取得显著的改善。在SBizPort和AMedPort的研究中,信息可视化在web搜索结果中取得了显著的性能改进。在所有三个门户中,可视化大量搜索结果的能力对于良好的性能至关重要。
我建议系统开发人员和IT经理将浏览支持和分析工具合并到他们的在线搜索系统和门户中,以增强传统的文本列表显示。这些工具可用于总结网页文本描述[6,支持查询公式[7,设想与环境和组织相关的新兴事件[5],并将搜索结果按层级或地图分类[4].然而,必须提醒用户,这些工具仍然容易出错,这主要是由于自然语言处理中的歧义和高昂的计算成本,这对小型Web站点来说可能不经济。
在采用这些工具时,需要考虑的因素包括:网页收集在多大程度上为机器学习提供了足够的统计信息,有足够的硬件和软件来支持密集计算,是否有人力来改进网站界面和适应新的表示选择,所使用语言的特点,以及用户的IT素养。
在各种语言和领域中,我发现web搜索门户的开发、技术和语言使用存在显著差异。例如,中国大陆互联网使用的增长(但相对缺乏全面的Web搜索和浏览支持)强烈表明未来需要改进。虽然台湾的网络搜索技术更为成熟,但为处理中文而开发的新技术可能仍有发展空间。中文和西班牙语在线用户的强劲增长可能会在未来几年持续下去,这进一步强调了对更好、更综合的网络搜索门户的需求,这些门户可以提供各种格式的搜索结果,并为使用这些语言的地区和社区提供更丰富的信息。阿拉伯语网站内容和网民数量的增加,以及阿拉伯地区经济和政治的发展,将继续推动许多阿拉伯语网站的发展,而这些网站目前大多还不发达。我在这里报道的研究可能有助于更好地理解相关的发展和实验问题。
我正在进行的工作包括开发可扩展的技术来收集、分析和可视化不同语言的Web信息,研究非英语Web搜索中的用户需求,以及探索新技术在信息探索和分析中的效果。这项工作将有助于在多语言世界中进行Web搜索和浏览。
1.艾比,R。互联网在阿拉伯世界的现状。教科文组织信息社会天文台(2002年);www.unesco.org/cgibin/webworld/portal_observatory/cgi/jump.cgi ? ID = 2329。
2.中国互联网络信息中心。第20次中国互联网发展统计调查报告中国,北京,2007;www.cnnic.net.cn/uploadfiles/pdf/2007/7/18/113918.pdf。
4.Chung, W., Chen, H., and Nunamaker, J.网络知识发现的可视化框架。管理信息系统学报4(2005年春季),5784。
5.Chung, W., Chen, H., Chaboya, L., O’toole, C.和Atabakhsh, H.评价事件可视化:COPLINK时空可视化工具的可用性研究。国际人机交互杂志1(2005年1月),127157。
6.涌,W,, Y,, Z,王,G。,Ong郭宏源。,and Chen, H. Internet searching and browsing in a multilingual world: An experiment on the Chinese Business Intelligence Portal.美国信息科学与技术学会学报9(2004年7月)818831。
7.Leroy, G, Xu, J., Chung, W., Eggers, S., Chen, H.三种元搜索引擎中查询公式和结果审查工具的最终用户评估。国际医学信息学杂志1112 (Nov.Dec。2007), 780789。
8.McDonald, D.和Chen, H.背景总结:搜索与浏览。美国计算机学会信息系统学报1(2006年1月),111141。
9.小功率。互联网使用统计:互联网大图(更新于2007年11月30日);www.internetworldstats.com/stats.htm。
10.Mowshowitz, A.和Kawaguchi, A.在网络上的偏见。Commun。ACM 45岁9(2002年9月),5660。
11.斯宾克(A.)、奥兹穆特鲁(S.)、奥兹穆特鲁(H.)和詹森(B.),美国对比欧洲的网络搜索趋势。市立论坛36,2(2002年秋季)。
©2008 acm 0001-0782/08/0500 $5.00
允许制作本作品的全部或部分的数字或硬拷贝用于个人或课堂使用,但前提是该拷贝不是为了盈利或商业利益而制作或分发,并且该拷贝在第一页上带有本通知和完整引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。
数字图书馆是由计算机协会出版的。版权所有©2008 ACM有限公司