据估计,在1998年前后,万维网可索引的网页超过8亿页[9].当搜索Web时,用户可能会被搜索引擎检索的数千个结果淹没,其中很少有有价值的结果。搜索引擎的问题不仅仅是找到相关的结果,而是找到符合用户信息需求的结果。用户的信息需求决定了哪些文档是有价值的。典型的搜索引擎限制用户只输入关键字查询,即使用户在做相关性判断时考虑的不仅仅是主题[1,10].
我们描述了一个元搜索引擎架构,在NEC研究所使用,它允许用户以信息需求类别的形式提供偏好。这些额外的信息用于指导搜索过程,提供比只考虑查询更有价值的结果。使用我们的架构,相同的关键字查询可能被发送到不同的搜索引擎,结果可能为不同的用户获得不同的评分。
与典型的搜索(或元搜索)引擎不同,我们的体系结构在确定查询哪些源、如何针对这些源修改查询以及如何对检索结果打分时,会考虑用户的信息需求。这些参数可以独立于关键字查询而有所不同。
Web是一个非常大的异构文档集合,但是,Web页面不同于传统数据库中的典型文档。页面可以是活动的(动画,Java),可以实时自动生成(当前股票价格或天气信息),并可能包含多媒体(声音或视频)。Web页面的作者有着非常不同的背景、知识、文化和目标。此外,元数据的可用性是不一致的(例如,一些作者使用HTML标题标记来表示文本中的标题和副标题,而另一些作者使用不同的方法,如HTML字体标记或图像)。XML和Dublin Core等努力旨在改进元数据,然而,似乎不太可能所有的Web页面作者都遵守复杂的标准。目前只有大约三分之一的Web服务器主页使用简单的HTML META标签标准[9].
Web搜索引擎抓取Web,下载和索引页面,以便进行全文搜索。有许多通用的搜索引擎;不幸的是,他们没有一个接近索引所有的网络[9].也有成千上万的专门搜索服务,索引特定的内容或特定的网站。可用的搜索服务的巨大变化,以及它们中的任何一种都缺乏全面性,在一定程度上导致了元搜索引擎的引入。
元搜索引擎通常为多个搜索引擎提供单一界面,并将结果组合成单一的统一列表[12].列表的顺序通常由搜索引擎返回的简短摘要或分数决定,或两者同时决定。元搜索引擎可能很难确定有价值的文档,因为它们的可变性和关于单个搜索引擎的信息的缺乏。例如,如果一个引擎返回许多不相关的结果,一个典型的元搜索引擎可能没有办法阻止这些结果的排名高。一些流行的元搜索引擎包括MetaCrawler (www.metacrawler.com)和SavvySearch (www.savvysearch.com)。
创建元搜索引擎Inquirus的目标之一是避免从多个搜索引擎合并结果的困难[8].Inquirus下载并分析搜索引擎列出的所有页面。有了所有页面的全文,文档排序问题又回到了标准搜索引擎遇到的较容易但仍然非常困难的问题。Inquirus的体系结构还提供了许多其他优点,例如显示查询敏感的摘要、始终与Web当前内容保持最新的结果(提高相关性)以及改进的重复检测。
信息检索系统既要考虑相关性,又要考虑约束条件。相关性是指文档是否与查询在同一主题上的二进制状态。约束是指必须满足的附加条件。仅使用相关性和约束进行检索的一个限制是,用户可能对无法表达的相关文档有偏好。例如,用户搜索关于最近地震的当前事件可能会找到两个类似的文档。一是昨天的新闻;另一个是今天的。虽然两者可能都“相关”,但用户可能更喜欢今天的新闻。如果用户要施加约束,他或她只能说“在上周”这样的内容。这可能会排除旧文件; however, it does not provide any information about how the user differently values documents that meet the constraints. Additionally, if the "best document" was one week and one second old, it would be excluded.
我们使用价值的概念,而不是依赖相关性。文档的价值是主观的。具有相同查询的用户可能对同一文档做出不同的值判断。即使是同一个用户的价值判断也会随着时间的推移而改变。当有少量相关结果时,将它们全部呈现给用户可能是可以接受的。然而,当搜索发现成百上千个可能相关的结果时,包含价值概念并基于不仅仅是关键词的排序决策就会变得更加可取。
图1展示了典型搜索和元搜索引擎的架构。用户的信息需求(IN)是用查询来近似的,通常很糟糕。该查询应用于Web页面的本地数据库,并对结果进行排序并显示给用户。大多数搜索引擎都有一个排序策略:所有使用相同查询的用户将以相同的顺序得到相同的结果。图1还展示了一个典型元搜索引擎的架构。元搜索引擎没有本地数据库,而是依赖于其他来源(其他搜索引擎),如数字.从其他来源返回的结果通过某种组合策略(也称为融合策略)进行组合。在排序结果时,元搜索引擎通常只考虑来源提供的标题、摘要和url。Inquirus通过获取和分析各个页面来改变这个过程。这允许使用一致的评分函数,使排序问题更像标准的搜索引擎。
为了让搜索决策与用户信息需求保持一致,我们创建了一个扩展典型元搜索引擎的新架构,如下所示图2.新的体系结构将用户首选项添加到查询中。用户可以提供一个信息需求类别来控制元搜索引擎使用的搜索策略,而不是仅仅局限于使用关键词来表达信息需求。我们添加了直接影响源选择、查询修改和排序策略的显式用户首选项。该体系结构没有指定首选项的显式形式,或确切地说明如何使用它们。
每个信息需求类别都有一个关联的源列表、修改规则和评分函数。例如,选择“当前事件”会指示系统搜索ABCNews、News.com、Snap.com、AltaVista、雅虎和HotBot。对HotBot的查询被修改为将搜索限制为仅在过去两周内更新的页面。对ABCNews和News.com的查询指定了结果应该按日期排序,最近的结果出现在最前面。当搜索引擎作出响应时,将下载并分析列出的页面,然后使用相关的实用函数进行评分。每个类别都有自己的源、查询修改和实用功能(排序策略)列表。
源的选择。理论上,元搜索引擎可以搜索所有可能的资源。实际上,网络带宽的限制和文档排名的准确性使它比只搜索可能产生有价值结果的资源更可取。
标准的元搜索引擎总是使用相同的源搜索引擎:源选择过程不会改变。元搜索引擎,如SavvySearch, ProFusion, Inquirus和MetaSEEK可能不会将所有查询发送到相同的搜索引擎。有些引擎允许用户选择搜索引擎组(如“新闻”或“体育”),或选择单个引擎。其他人试图将查询中的关键字映射到最好的搜索引擎。
Inquirus 2根据用户偏好进行源选择。首选项可以是一组源,类似于其他元搜索引擎。然而,Inquirus 2目前使用的首选项提供了对用户信息需求的高级描述。当前支持的信息需求类别示例显示在表1.目前,每个信息需求类别的源代码都是手工编码的。
为了增加与特定需求相关的结果数量,Inquirus 2执行查询修改。使用了三种类型的查询修改:使用搜索引擎特定的选项、将术语添加到查询前,或将术语添加到查询后。此外,可以为给定的搜索引擎提交多个修改后的查询。例如,当搜索“通用资源”信息需求类别时,用户对AltaVista的查询目前修改如下:提交了三个查询;第一个查询前置是什么
第二个是追加链接资源
,而第三个则未经修改。因此,用户搜索关于“Linux”的一般页面时,会检索到诸如“什么是Linux”或“Linux链接页面”这样的页面,这两个页面在AltaVista的排序策略中通常得分不高。未修改的查询仍然会被提交,以确保查询修改不会导致非常有价值的结果被错过,这些结果通常被AltaVista排名很高。
根据给定需求和搜索引擎修改查询的能力允许Inquirus 2包含针对特定需求的通用搜索引擎。例如,搜索新闻的用户通常不使用Northern Light或HotBot,但可以使用查询修改使其结果按日期排序,或添加日期约束,从而返回许多最近的、可能有价值的文档。Inquirus 2源选择过程允许使用许多特殊用途的搜索引擎,只有在适合给定信息需要时才查询单个引擎。
为了将多种因素纳入到Inquirus 2的排序策略中,我们使用了多属性效用理论[6来表示用户的首选项。Inquirus 2将用户偏好表示为附加价值函数[6]。每个属性有两个因素:相对权重和属性-值函数(从属性赋值到其值的映射)。作为一个简单的例子,用户对“当前事件”的偏好可以表示为日期函数,以及我们称为TopicalRelevance的属性,该属性用于衡量文档与给定查询的关系。对当前事件的偏好可能反映在TopicalRelevance上占60%权重,DaysOld上占40%权重。我们目前的系统有一个手动输入的功能,每个信息需要类别。我们打算用学习来“发现”每个类别的最佳功能,以及为不同的用户专门分类。
表1列出用于各种信息需求类别的一些属性表2描述一些可用的文档特定属性。除了特定于文档的属性(如WordCount)之外,还有特定于关键字的属性,这些属性指示某个特定关键字是否在标题或URL中,或者该关键字距离文档顶部有多远。效用函数可以是属性的任何线性组合。
要使用Inquirus 2,用户需要输入查询并选择信息需求类别。用户还可以选择最大点击次数、结果显示格式,以及是否使用动态显示小程序。基于java的动态显示小程序在检索和分析结果时动态地重新排序,始终显示到目前为止检索到的文档中排名最高的文档。动态显示小程序允许用户在搜索过程中的任何一点检查已处理的结果,而Inquirus 2继续下载和处理额外的搜索引擎响应和文档。
图3而且4显示Inquirus 2的用户界面,以及查询的两个不同结果集基于Agent的信息检索
.图3显示信息需求类别的结果为“研究论文关于”,而图4显示信息需求类别“一般介绍关于”的结果。搜索研究论文时,Inquirus 2搜索AltaVista,谷歌,HotBot, Northern Light, Snap和雅虎。谷歌和Yahoo已经修改了提交的查询,以增加找到研究论文页面(或其他有价值的页面,如参考列表)的机会。这两种修改都包括在用户查询的末尾添加“抽象关键字引用”,因为典型的研究论文将包含名为“摘要”、“关键字”和“引用”的部分。
结果的评分基于几个属性,包括TopicalRelevance。一个很好的研究论文偏好页面应该与主题密切相关,并且具有一篇研究论文的许多特征。决定后者的一些更重要的属性包括WordCount(页面越长越好)、AverageGrade(级别越高越好)和ResearchPaper属性,它是对一篇研究论文特征的度量,比如有摘要、引言、关键词和参考文献。为了进一步提高主题相关性,查询术语出现在更靠近文档顶部(在摘要、标题或关键字中)的页面得分要高于出现在更下方的页面。
显示的前10个结果图3,除了一篇是研究论文,其余的都与基于主体的信息检索高度相关。同样的查询(未修改)提交给北极光,在排名前10的结果中只产生了一篇研究论文和一份参考文献列表。与雅虎类似,在未修改查询的情况下,前10页中只有两页是研究论文,只有一个参考文献列表。雅虎修改后的查询结果从前10个结果中返回了6篇研究论文(大多数,但不是所有的都是正确的主题)。
图4显示了相同查询的结果,但需要不同的信息类别:“一般介绍性关于。”不像研究论文,用户想要详细的页面,这里用户更喜欢更一般的页面,具有更宽松的格式要求。查询被提交到相同的搜索引擎(Northern Light除外),但有不同的查询修改。对于这个类别,三个查询被提交到AltaVista;一个加在“是什么”的前面,一个加在“链接资源”后面,第三个没有修改。通过添加“链接资源”修改了对谷歌的查询。与结果不同的是图3,只有极少数前10个查询的结果是完全通过修改查询找到的。事实上,排名前10的搜索结果中,大多数都被不止一个搜索引擎找到了;对于研究论文来说,几乎没有重叠。结果显示在图4演示更广泛的页面,包括组织的主页、通用指针(资源)页面和两个与查询相关的演示。一般的Web页面不一定是单一的“类别”,而是具有某些属性,例如较低的等级级别。
Inquirus 2的体系结构开放了搜索过程,允许专家或个人定义应该如何考虑每个属性。此外,该体系结构允许轻松添加新的搜索引擎和修改查询。Inquirus 2目前所做的特定搜索决策可以得到显著改进,无论是手动还是自动;然而,使用当前决策的示例查询表明,在定位对用户有价值的结果方面,Inquirus 2的体系结构有可能比常规搜索引擎提供实质性的改进。
有以前的工作有关使用效用理论评分文件,以前的工作在智能源选择。格罗斯曼和弗里德[4]描述用于信息检索的各种算法和启发式,包括集中式和分布式的。它们还描述了一些Web搜索引擎是如何工作的,以及它们面临的一些问题。Mizzaro [10]为相关性的概念提供了一个很好的总结,包括一个简短的讨论之间的效用理论和信息检索的关系。Kochen [7]建议将效用理论专门应用于文档,并描述了四个公理,如果满足,意味着存在一个效用函数,可以用来排序文档。以前使用效用理论对文档进行评分的实现包括DIVA系统[11],以及密歇根大学数字图书馆项目的偏好代理[3.].一些研究人员考虑了智能资源选择。例如,Howe和Dreilinger [5]提出了一种基于查询关键词选择搜索引擎的方法,Gauch等[2]描述ProFusion如何根据查询的预测主题选择最佳资源。Northern Light提供了一种“自定义文件夹”的方法,该方法按类型聚集文档。结果被分组到“文件夹”中(可能重叠),用户可以使用这些文件夹限制搜索。例如,用户可以将搜索限制在会议或“信息检索”的主题区域。文件夹是在运行时根据查询返回的结果确定的,可以按主题、源、类型或语言包括文件夹。相比之下,Inquirus 2使用基于价值的排序。特定结果的实际值不仅取决于它的“类型”,而且有价值的结果可能落在给定的集群边界之外。例如,当搜索研究论文时,一个非常强烈地关于一个想要的主题的参考列表可能比一个在脚注中提到这个主题的研究论文更有价值。同样地,当搜索某人的主页时,简历可能是次优选择,即使它们都不属于主页集群。
Inquirus 2目前在NEC研究所使用。在最近的工作中,我们已经实现并测试了机器学习用于查询修改和评分功能的使用,并进行了一项用户研究,证实了Inquirus 2架构的有效性。1在未来的工作中,我们计划允许用户轻松地生成他们自己的类别,我们计划扩展我们在学习文档评分功能方面的工作。
1.巴里,中一段相关性和文档特征的用户标准的识别:超越主题方法的信息检索.博士学位论文,雪城大学,纽约,1993。
2.Gauch, S., Wang, G.和Gomez, M. ProFusion:来自多个分布式搜索引擎的智能融合。通用计算机科学杂志9(1996年9月)。
3.格洛弗,e.j.,伯明翰,W.P,和戈登,医学博士使用效用理论改进网络搜索。在Web信息和数据管理(WIDM'98)1998年,医学博士贝塞斯达
4.格罗斯曼,地方检察官和弗里德,O。信息检索:算法与启发式。Kluwer学术出版社,1998年。
5.Howe, A.E.和Dreilinger, D. SavvySearch:一个元搜索引擎,可以学习查询哪些搜索引擎。人工智能杂志182(1997年2月)。
6.R.L. Keeney和h.l. Raiffa。多目标决策.威利,纽约,1976年。
7.Kochen, M。信息检索原理.梅尔维尔出版公司,加利福尼亚州洛杉矶,1974年。
8.Lawrence, S.和Giles, C.L.上下文和网页分析改进的网络搜索。IEEE网络计算(JulyAug。1998), 3846。
9.Lawrence, S.和Giles, C.L.网络信息的可访问性。大自然400年(1999年7月8日),107109
10.关联性:整个历史。美国信息科学学会杂志48, 9(1997年9月),810832。
11.阮h .和哈达威P.决策理论视频顾问。在AAAI推荐系统研讨会, 1998年。
12.Selberg, E.和Etzioni, O.:用于Web上资源聚合的MetaCrawler体系结构。IEEE专家(Jan.Feb。1997), 1114。
©2001 acm 0002-0782/01/1200 $5.00
允许制作本作品的全部或部分的数字或硬拷贝用于个人或课堂使用,但前提是该拷贝不是为了盈利或商业利益而制作或分发,并且该拷贝在第一页上带有本通知和完整引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。
数字图书馆是由计算机协会出版的。版权所有©2001 ACM有限公司
没有发现记录