acm-header
登录

ACM通信

个人信息管理

搜索消除个人信息管理


迪莉娅想在她哥哥上周在邮件中推荐的一家餐厅安排一次午餐会议。她应该能够使用她开发的几个组织方案中的一个来找到地址,这些组织方案帮助她管理每天收到的大量纸张和电子信息。她知道她把这家餐厅的信息复制到了地址簿里,但她不确定这家餐厅的名字,因此很难直接查找。她不确定这封邮件是放在与哥哥邮件主题相关的文件夹里,还是留在了自己的收件箱里。因为她还需要回复他。她还记得访问过这家餐厅的网页,所以这些信息可能在她的浏览器历史记录中。

尽管迪莉娅有条不紊地管理着她的信息,但她并不总是确切地知道到哪里去寻找她知道自己遇到的信息。她在多个位置存储了数万个对象,包括地址簿、日历、用于电子邮件的文件夹层次结构、用于文件的不同文件夹层次结构,以及用于她的Web历史记录的另一种搜索和收藏夹机制。所有这些组织上的努力都值得吗?

搜索引擎是发现新信息的常见手段,尤其是在Web上。搜索技术还可以用于支持对各种个人信息的访问。在现实世界中,像迪莉娅这样的街道地址搜索需要她有良好的组织结构。但是,当信息以电子方式存储时,丰富的搜索功能可以增强甚至取代显式组织结构,作为定位和返回信息的手段。在这里,我们探索搜索可以在多大程度上减少组织个人电子信息的需要。组织结构(如学习、提醒、任务管理和理解)可能支持重新访问信息以外的功能(见[7]以讨论文件夹在项目相关信息中的作用)。

数字

为了取代组织个人信息的需求,搜索需要两个关键功能:第一,它必须跨越我们每天遇到的许多不同的信息源;迪莉娅想要的地址可能在她的地址簿、电子邮件文件夹或浏览器历史记录中。其次,它不能局限于关键字搜索,而是包括与遇到的项目或上下文相关的其他类型的信息(它的元数据)。迪莉娅应该能够利用她记得的任何细节来帮助她找到餐厅的地址;例如,她知道这封电子邮件是她哥哥发来的,知道她大概是什么时候收到的,也知道餐厅的网页上有一个聚宝盆的图片,还播放了一个有趣的音乐主题。这种丰富的联想是人类记忆的特征,应该在个人信息管理(PIM)系统中提供,以帮助人们找到感兴趣的信息。

回到顶部

搜索个人信息

对个人信息的搜索在许多方面与在网络等庞大的未知集合中搜索不同。也许最重要的区别是,人们熟悉信息的许多不同特征,以及他们之前遇到这些信息的上下文。当我们找不到东西的时候,知道他们中的许多人在寻找什么东西(包括它存在的事实)会让我们更加沮丧。搜索功能允许我们从各种来源检索信息,使用许多线索,除了关键字或文件夹,对个人信息的访问是至关重要的。

快速直观地检索个人数字记忆的想法是由二战期间美国科学研发办公室主任范尼瓦尔·布什(Vannevar Bush)在1945年的一篇开创性文章[2].尽管今天的技术与布什预想的相差甚远,但今天的桌面搜索工具实现了他的许多愿望。在这里,我们将描述我们在Microsoft ResearchStuff我见过的(SIS)开发和部署一个特定系统的经验[6].在过去的几年里,我们使用各种观测和实验技术对SIS进行了广泛的研究,并相信我们的结论可以推广到其他类似的系统。然而,我们注意到,在过去30年里已经开发了许多不同的桌面搜索工具[49最新一代的个人电脑操作系统,包括苹果公司针对Tiger OS X的Spotlight和微软的Vista OS,都内置了这种功能。

我们将SIS开发为一个研究原型,以提供对用户将看到的电子信息的统一访问,而不管它最初是如何遇到的(例如电子邮件、文件、日历信息、即时消息、Web页面和数字照片)。用户不需要做任何事情来显式地存储它。如果他们想把一个项目归档到一个文件夹中,这些信息就会成为额外的元数据,可以用来辅助检索。但是SIS丰富的搜索功能可以被使用,不管条目是否被显式地保存在文件夹中。人们可以使用与项目相关的任何单词(类似于Web搜索)以及许多不同类型的元数据或属性(例如项目是什么、项目的维度、遇到它的时间以及创建它的人)来搜索信息。图1为SIS的用户界面截图。顶部是一个用于指定关键字或属性的查询框。下面是按属性排序的列标题和过滤每个属性的其他元素。搜索结果返回到更下方的位置。用户界面通过丰富的结果排序、过滤和分组,使关键字搜索和属性浏览紧密耦合。


知道了很多关于被寻找的东西的细节(包括它存在的事实),当我们无法找到它时,就会更加沮丧。


SIS被部署为微软全球员工的自愿下载(仍然可用)的研究原型,许多人仍然在使用它。他们代表了大型企业中常见的各种工作,包括项目管理、销售、软件开发、管理和执行管理。我们研究了他们在日常生活中如何使用它来获取个人信息。SISWindows桌面搜索的后代可以从toolbar.msn.com免费获得。

回到顶部

交互式和迭代查询

来自SIS研究参与者的查询通常都很短(平均只有1.59个单词,而网络上报告的查询有2.16个单词[12])。其中近50%的结果进行了迭代,在SIS界面中对结果进行了排序和筛选。这种互动使参与者能够根据他们所记得的任何上下文知识快速改进他们的查询。例如,Delia可以在SIS中输入关键字“餐厅”,过滤结果,只显示来自她哥哥的电子邮件,按日期对剩下的结果进行排序,然后扫描上周包含餐厅地址的电子邮件。

这种交互迭代的搜索方式结合了浏览和传统的关键字搜索。任何需要的信息都可以由搜索者记住的任何东西指定:内容中的单词或元数据(如发件人、大致时间甚至文件夹名称)。这种迭代过程的一个好处是,它允许用户识别而不是回忆他们正在寻找的东西。用户报告说,当他们只记得他们正在寻找的信息的模糊属性时,该系统特别有帮助。与基于文件夹的导航相比,SIS具有许多不同属性或访问路由的可用性,而基于文件夹的导航只允许使用单一属性(文件夹名)进行访问。

回到顶部

人和时间

SIS搜索个人信息与网络搜索的另一个不同之处在于,与信息相关的人是一个重要的检索线索。事实上,在SIS发出的所有查询中,超过25%包含一个人的姓名或电子邮件别名。由于电子邮件在工作环境中的重要性,这可能有些偏颇,但它也反映了个人内容的一个更普遍的特征。个人信息反映了我们组织生活和记忆的社会环境。例如,迪莉娅知道她要找的邮件信息来自她的弟弟本。人是组织个人信息的关键因素。虽然我们不太可能知道或关心谁创建了Web页面,但我们更了解给我们发送电子邮件的人或在会议上做报告的人,并且与检索特定条目更相关。

时间是个人信息的另一个重要组织特征。虽然我们不太可能知道一个网页是什么时候创建或修改的,但我们常常大致记得我们在什么时候遇到了我们正在寻找的个人信息,特别是与我们生活中的其他事件相关的信息。超过60%的SIS搜索结果是按日期排序的。其他属性(如相关性、标题、作者和文件夹)有时也用于排序结果,但日期是最常见的。对迪莉娅来说,按日期分类可以让她专注于上周的邮件,即使她不记得确切的日期。

date属性特别值得注意,因为它突出显示了用户对某项的记忆是如何取决于上下文的。大多数项目都与多个日期相关(例如创建、更改和查看它们的时间)。我们发现,用户记忆的日期取决于他们正在寻找的物品的类型。例如,对于日历事件,用户通常会记住约会发生的时间,而不是收到或接受邀请的时间。对于Web页面,最难忘的时间是页面被浏览的时候;对于照片,是照片的拍摄日期;至于电子邮件,是什么时候收到的。因此,SIS界面中显示的日期是一种抽象——不同类型的项目使用不同日期信息的有用日期。

对于个人信息来说,时间是一个非常重要的组织特征,因此我们开发了一个时间轴可视化原型(使用与SIS相同的底层索引的独立应用程序),作为SIS中的列表视图的替代方案[11](参见[8的另一个时间轴界面和对情景检索的广泛讨论)。认知心理学研究[3.他发现,人们记忆信息,特别是较老的信息,不是根据确切的时间,而是根据关键事件,如孩子的生日,异国旅行,以及著名的世界事件,如9/11袭击和2004年12月的印尼海啸。超过50%的用户通过SIS访问的项目是一个多月前的,所以SIS支持情景访问是很重要的。

图2是SIS记忆地标界面的截图,提供了搜索结果的时间轴展示,并添加了各种地标事件。在显示的主要部分,结果是按时间排序的,就像他们在SIS界面中一样。图的最左边是结果随时间的分布,重点区域突出显示(1999年12月至2001年4月)。概述允许人们快速识别特定搜索主题的高搜索活动的时间间隔。地标部分显示了与搜索结果几乎同时发生的事件。这些标志用于识别感兴趣的时间间隔。公共地标(如假日和重要新闻事件)和个人地标(如重要日历约会和数字照片)都提供了访问的锚点。微软对SIS用户的一项研究表明,在搜索个人内容时,地标增强时间轴显著提高了用户检索时间和满意度[11].记忆地标界面说明了搜索系统如何利用人们认为值得记忆的线索,提供对个人信息的灵活访问。


这种迭代过程的一个好处是,它允许用户识别而不是回忆他们正在寻找的东西。


随着我们收集的数字信息(以及我们这些用户)的年龄增长,这对个人搜索意味着什么?有了千兆字节的个人信息存储,当我们忘记我们所拥有的东西时,搜索和检索将如何工作?如果我们不记得它的存在,我们怎么去寻找它?

回到顶部

无需搜索就能找到

虽然个人搜索工具可能会消除大部分目前被认为的PIM活动,但搜索工具本身可能最终会被主动查找信息的工具所取代。人们通常搜索与正在进行的任务相关的信息,这些任务上下文可以用于支持主动的信息收集。例如,当Delia回复Ben关于即将到来的午餐会议的电子邮件消息时,该消息可以作为自动查找相关信息的上下文(例如Ben的联系信息、Ben最近发送的电子邮件以及与消息的一般主题相关的其他项目)。所有这些都可以提供给Delia,而不需要她显式地发出查询。

一些系统也开始利用用户上下文主动查找与任务相关的信息[1510].它们分析当前上下文(如电子邮件消息、Web页面、电视新闻报道或当前位置),识别重要词汇或元数据,并自动生成查询以查找相关信息。例如,我们开发的隐式查询(IQ)原型(一个使用底层SIS索引的独立项目)[5]分析用户正在查看的电子邮件,并从正文、主题、发件人和收件人字段中提取重要的单词。在对用户的个人SIS索引的查询中自动使用这些词,结果显示为附加到当前消息的侧面板。我们认为IQ有助于节省用户生成查询的精力,事实也的确如此。但是,许多人也报告了在查找信息时意想不到的好处,特别是当他们完全忘记自己有任何相关的东西,并且永远不会自己生成一个显式搜索时。在Delia的例子中,IQ可以检索关于Delia和Ben将要参加的会议的网页,提醒她将该会议添加到会议议程中。

许多研究挑战使能够自动查找信息的系统的开发复杂化。也许最重要的是设计一个平衡意识和注意力的界面。为了有用,结果必须是可见的,并且随时可用,特别是当用户不知道相关信息在某处可用时。然而,如果结果根据用户的操作不断变化,这可能会分散注意力。第二个挑战是如何处理隐式生成查询的复杂性和不透明性。与用户指定搜索参数的显式搜索不同,上下文和返回结果之间的关系可能复杂且难以描述。最后一个挑战是如何支持用户在不断变化的信息环境中返回已知项目,这是一个有趣而重要的问题,远远超出了隐式查询系统的范畴。

回到顶部

结论

新的搜索功能正在改变PIM的格局。丰富的搜索功能使明确的归档和组织对检索个人信息的重要性大大降低(尽管组织在其他方面仍然很重要[7])。来自谷歌、Microsoft、Yahoo和其他来源的几个桌面搜索应用程序提供对一系列个人信息的统一访问。简单的关键字搜索功能可以通过用户界面进行增强,以允许用户根据各种线索(如内容、元数据和任务上下文)指定他们的信息需求,并快速、灵活地查看和改进结果。

我们使用SIS和IQ的经验表明,个人内容的某些搜索方式不同于其他形式的搜索。对丰富元数据(如人员、时间、任务上下文和事件)的支持对于查找用户以前遇到过的信息至关重要。但这里描述的这些系统只是一个开始。除了显式搜索之外,它们还会自动提供与个人任务上下文相关的信息。它们不仅会帮助我们找到我看过的东西,还会帮助我们找到我应该看的东西。

回到顶部

参考文献

1.J. Budzik, K. Hammond, K.和L. Birnbaum .上下文中的信息获取。基于知识的系统12(2001年3月),3753。

2.正如我们可能认为的那样。《大西洋月刊》176号1(1945年7月),101108

3.G.戴维斯和D.汤姆森。上下文中的内存:内存中的上下文。约翰·威利父子公司,奇切斯特,英格兰,1988年。

4.杜里什,爱德华,爱德华,拉马卡和索尔兹伯里,M.普雷斯托:流动交互文档空间的实验性架构。计算机与人类交互学报2(1999年6月),133161。

5.Dumais, S., Cutrell, E., Sarin, R.和Horvitz, E.上下文化搜索的隐式查询。在信息检索研究与发展国际会议论文集(2529年7月,英国谢菲尔德)。ACM出版社,纽约,2004,594。

6.Dumais, S., Cutrell, E., Cadiz, J., janke, G., Sarin, R.和Robbins D.我所见的东西:一个个人信息检索和再利用的系统。在信息检索研究与发展国际会议论文集(多伦多,7月28日)1). ACM出版社,纽约,2003,7279。

7.琼斯,W., Phuwanartnurak, J.,吉尔,R.和布鲁斯,H.别拿走我的文件夹!整理个人信息来完成任务。在人因与计算系统会议论文集(4月25日,俄勒冈州波特兰)。ACM出版社,纽约,2005,15051508。

8.Lansdale, M.和Edmongs, E.在个人文件系统设计中为事件使用内存。国际人机研究杂志36,1(1992年1月),97126。

9.Quan, D., Bakshi, K., Huynh, D.,和Karger, D.支持多种分类的用户界面。2003年第九届IFIP TC13人机交互国际会议论文集(9月15日,瑞士苏黎世)。IOS出版社,阿姆斯特丹,荷兰,2003,228235。

10.罗德斯,B.和梅斯,P.即时信息检索。IBM系统学报39,34(2000年7月),685704。

11.林格尔,M.,卡特瑞尔,E.,杜梅斯,S.和霍维茨,E.时间里程碑:从个人存储中检索信息的里程碑的价值。在2003年第九届人机交互TC13国际会议论文集(9月15日,瑞士苏黎世)。IOS出版社,阿姆斯特丹,荷兰,2003,184191。

12.斯平克,沃尔夫拉姆,D.,詹森,B.和萨拉塞维奇,T.搜索网络:公众和他们的查询。美国信息科学与技术学会学报52,3(2001年2月),226234。

回到顶部

作者

爱德华Cutrell(cutrell@microsoft.com)是华盛顿州雷德蒙德微软研究院自适应系统与交互组的研究员。

苏珊·t·杜梅斯(sdumais@microsoft.com)是华盛顿州雷德蒙德微软研究院自适应系统与交互组的高级研究员。

Jaime Teevan(teevan@csail.mit.edu)是马萨诸塞州剑桥市麻省理工学院计算机科学和人工智能实验室的博士候选人。

回到顶部

数据

F1图1。我看过的东西界面截图。用户根据各种属性(如日期、文件类型和作者)以及关键字进行搜索。

F2图2。我看过的东西内存地标界面截图。搜索结果与用户生活中的时间轴和事件(如照片和日历事件)一起排列,以提供记忆脚手架或地标,帮助引导用户找到感兴趣的项目。

UF1数字

回到顶部


©2006 acm 0001-0782/06/0100 $5.00

允许为个人或课堂使用本作品的全部或部分制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。

数字图书馆是由计算机协会出版的。版权所有©2006 ACM, Inc.


没有找到条目

Baidu
map