acm-header
登录

ACM通信

ACM通信

我的生活片段:一切的个人数据库


2001年1月通信文章(1“个人数字商店”描述了我们为个人和专业用途而对个人信息进行编码、存储和方便访问所做的努力[1].目标包括理解数字化遗留内容的努力,以及消除纸张作为永久存储介质的作用。我们使用了戈登·贝尔的文档档案以及他目前的活动作为研究的工具。据推测,一个新出现的tb磁盘将保存一个适度活跃的专业人士一生所积累的信息。本文描述了该项目在过去五年中的进展、见解和惊喜。从最初的简单存储扫描论文文件的计划,我们在开发基于sql的MyLifeBits平台时,逐渐形成了未来PC应该是什么样子的概念。

自2000年以来,每GB 10美元的40GB磁盘已被每GB不到1美元的500GB磁盘所取代,预计到2008年将出现tb级驱动器。在磁盘容量不断扩大的同时,贝尔的数字化生活也在不断发展。他的非视频内容以大约0.5 GB/月的速度增长,但以非线性的方式增长。随着附件变得越来越普遍,电子邮件信息也变得越来越大,每购买一台像素更高的新相机,数码照片就会占用更多的空间(2000年为200万像素;2005年达到500万像素)。他的经验与这一观点一致,即在没有视频的情况下,1兆兆字节似乎仍然足够用于终身存储,因为如果只对所看到的和听到的进行适度存储,1兆兆字节可以在一个人80岁的生命中每月存储超过1GB的数据表格点击此处查看贝尔商店中包含的文件格式)。

然而,改变用户模式可能会使这种假设失效。我们现在用推测的方式记录东西,记录我们以后可能想看到的东西。此外,我们“捕捉一切”的努力超越了纸张、照片和视频等遗留内容,进入了第二阶段,包括实时捕捉对话、会议、传感器读数、健康监视器和计算机活动。在未来,我们可能会开始每天拍摄1000张照片(SenseCams现在是可行的)。5),或者存储所有的会议和对话,或者以原始而压缩的形式存储照片。每个月甚至每天的视频容量都可能超过1GB。事实上,在一个简短的实验中,我们记录了可能被观看的电视节目,很快就获得了近2TB的材料。我们现在相信1tb可以在20世纪的分辨率和数量下保存一个生命周期,但推测21世纪的用户可能期望记录他们的生命周期更广泛,保真度更高,并可能推动更大存储空间的市场。

最初的项目避免使用数据库,只使用一个文件系统,仔细命名文件并明智地使用文件夹和快捷方式。然而,随着收藏的增长,文件夹中的文件的使用从笨拙变成了压倒性的。在2000年,搜索工具是笨重的。目前的桌面搜索工具非常优越,但它们仍然在文件和文件夹方面工作。我们想要更强大的功能,比如通过元数据(包括关于项目的书面和口头评论)进行访问,以多种方式组织项目的能力,以及测试组织和分类信息的不同方式的能力。

面对这些挑战,重点从捕获转移到软件平台的开发,以使捕获的材料易于管理和有用。这个始于2001年底的新项目被命名为“我的生活片段”。1我们希望从根本上提高组织、搜索、评论和利用内容的能力。我们还希望获得单个数据库,以与正在创建的许多数据“孤岛”(包括邮件、联系人、会议、财务、健康记录、照片和其他项目)形成对照。对文件系统的失望导致了对个人存储数据库适用性的测试,并最终进入了对下一代存储系统的研究。

回到顶部

Memex是一个蓝图

为了寻找灵感,我们回顾了Vannevar Bush 1945年的文章《As we May Think》[3.].布什对美国的科学技术非常了解,他在二战期间一直担任美国科学研究与发展办公室主任,在那里他“协调美国科学家将科学应用于战争的活动”。在计算机和晶体管发明的两年前,他断言:“现有的仪器,如果开发得当,将使人类能够获得并掌握代代相传的知识。”这篇60年前的文章是一幅预言性的蓝图,包括计算机、占用少量空间的低成本图书馆存储、自动库存控制和计费的商业、快速通信、语音接口和超文本链接的网络空间。我们感兴趣的是他的包罗万象的个人信息系统,他称之为“Memex”。

布什将Memex定位为“一种个人储存所有书籍、记录和通信的设备,它是机械化的,因此可以以超快的速度和灵活性查阅。”这是对他记忆的一种放大的亲密补充。”Memex被做成一张有键盘、麦克风和显示屏的桌子。它的界面可以复制照片或文件,也可以在上面写字。然而,“大多数Memex的内容都是在缩微胶片上购买的,可以随时插入。”

在典型的使用场景中,用户“移动、观察、拍照和评论。时间被自动记录下来,将两个记录联系在一起。如果他到野外去,可以用无线电把他和录音机连接起来。晚上,当他仔细思考自己的笔记时,他再次用“语音转文本”的方式将自己的评论写入记录。通过一个胡桃大小的,安装在前额的摄像头,用户“移动……每当他看一些值得记录的东西时,他就按下快门,照进去……”

布什希望改善实体图书馆的体验,但他意识到,这个问题“比图书馆在采用机制方面的滞后,或使用设备的开发不足更为深刻。”我们在获取记录方面的无能在很大程度上是由索引系统的人为原因造成的。”一个物品只能在一个地方,为了找到它,“人们必须有关于该在哪条路径上找到它的规则,而这些规则是繁琐的。找到一件物品后,玩家必须从系统中走出来,重新进入一条新的路径。”布什指出,“人类的思维不是那样运作的。它是通过联合运作的。抓住一件东西后,它就会立即转向下一件,这是由思维联想所暗示的,与大脑细胞所携带的复杂轨迹网络相一致。”他建议Memex中的物品也可以同样以步道的形式组织起来。布什的“路径网”的想法通常被认为是万维网的灵感来源。然而,Memex是一种个人设备,类似于个人电脑。

回到顶部

"我的生活片段"中的软件

以链接和评论为中心的Memex是我们“我的生活片段”的蓝图。面对满是文档、消息、电话、照片和音乐文件的文件夹,以及作者、相机、评论、位置和时间等固有或潜在的元数据,我们需要一个框架来以Bush所描述的类似web的、几乎任意的方式保存和链接所有这些对象。我们认为搜索是最关键的需求。此外,我们意识到元数据通常是用户回忆的关键部分,例如,一封电子邮件是在某一年发送的,一首歌曲是由某个艺术家创作的,或者一张照片是在某个地方拍摄的。保存和链接所有这些项正是数据库所做的。

“我的生活片段”的核心是一个SQL Server数据库,它可以存储各种项目类型的内容和元数据,包括联系人、文档、电子邮件、事件、照片、音乐和视频图1).目前,我们的数据库支持25种项目类型。每个项目大约有20个公共属性。此外,每一个都有一个数据库表。例如,联系人有额外的62个属性,包括电子邮件地址和出生日期。

就像Bush所建议的那样,道具可以使用时间将它们“捆绑”在一起;或者显式地用打字链接链接,例如联系人和照片之间的“照片中的人”链接,或者语音评论和文档之间的“评论”链接。有了链接,传统的文件夹(目录)树可以使用更通用的“集合”功能来替换,该功能基于有向无环图(DAG)。任何对象(包括集合)都可以被归档到任意数量的父集合中。

元数据和链接通过与照片的使用很好地说明了它们。我们预计未来的相机(包括手机)将使用嵌入式定位硬件自动为每张照片标上时间和地点。因此,照片可以通过标签、拍摄时间或地点、主题等来回忆。最终,我们希望软件能够分析照片的内容来创建额外的元数据。目前,我们的软件允许通过拖放照片到地图上将位置与照片联系起来来定位照片。类似地,“照片中的人”链接可用于手动连接照片和联系人。或者,一个普通的时间戳隐含地将照片拍摄的时间与一个人的GPS记录器位置“绑定”起来,以创建位置元数据。图2一个显示了一个动画旅行日志的照片和GPS位置标记在地图上。照片也可以链接到日历事件,以显示事件的照片,将日历变成照片日记图2 b

一旦所有东西都在数据库中,项目就变成了寻找有用的工具来组织、关联元数据、访问和报告信息。图1显示了我们迄今为止围绕MyLifeBits数据库建立的函数。为了支持遗留应用程序,NTFS文件和Outlook电子邮件存储被监控,它们的元数据集成到数据库中,包括每个项目的文本,以支持全文搜索。系统捕获访问的每一个网页、所有即时消息聊天会话、所有电话交谈,以及会议、广播和电视节目的使用情况,如所示图1.GUI记录器记录所有鼠标和键盘活动(参见图2 c).这个日志可以揭示基于使用的物品的重要性,或者可以揭示一个人是如何花时间在电脑上的。办公室音频/视频记录是我们最新的捕获应用程序。

MyLifeBits shell是主用户界面。它允许将查询视为列表、大小可变的缩略图和时间轴。用户界面支持根据元数据和链接进行优化或旋转,正如我们将描述的那样,并提供了文本和语音注释的创建。例如,可以通过一个简单的按钮或右键单击操作对任意数量的选定项进行注释(注释可以是文本、语音或任何文件)。类似地,这些项可以分配给集合。屏幕保护程序显示随机的照片和视频片段,并让用户有机会评论和评价项目。简单的创作工具创建并排的时间线和基于html的幻灯片播放音频。

回到顶部

经验与观察

拥有一个替代记忆可以创造一种自由、振奋和安全的感觉,就像拥有一个拥有完美记忆的助手一样。由于我们无法预测何时需要旧账单、会议公告页、与会者名单或名片,所以最简单、最安全的方法就是把它们都保留下来。我们唯一的存储,包括财务和法律文件,如账单、合同、工资单、信托和遗嘱,都是电子的。股票证书是唯一保留下来的纸张。


拥有一个替代记忆可以创造一种自由、振奋和安全的感觉,就像拥有一个拥有完美记忆的助手一样。


感觉安全的部分原因是知道抓捕行动越来越自动。虽然浏览器Web捕获一开始让我们觉得有点微不足道,但这是一个改变了我们行为的基本特性。一位作者的硬盘故障导致他丢失了四个月捕获的网页,这对他的情感是一个严重的打击——也许就像一个人的记忆被剥夺了一样。甚至在几个月后,他搜索Web存档中应该存在的信息,却发现它已经丢失了。我们经常访问网页,只是为了确保有一个副本。毫无疑问,我们的后代会想知道我们为什么会在那里。我们的公司内部网是一个重要的信息源,包括从健康保险到产品规格的表单、文档和演示文稿。由于许多内部网站都是不断变化和短暂的,拥有一个个人副本是必不可少的。

好消息是,越来越多的内容“天生数字化”,不需要扫描。我们预计不久所有的信息都将以数字形式出现,包括账单、通信、财务报表、音乐和照片。专业期刊、报纸和杂志上的文章可能是专业人士拥有的最有价值的内容,现在这些都可以通过数字方式获得。来自专业组织的RSS提要将改善这种情况。这不仅意味着扫描过程将被取消;也有机会以几乎不需要成本的方式包含元数据。例如,在未来,没有真正的或人工智能需要确定牙科账单的元数据;相反,生成电子账单的软件将嵌入元数据(包括这是一张牙科账单、来自谁、总额和其他此类信息)。

虽然有些人猜测我们保留的东西太多了,但我们实际上很沮丧,因为成本或版权阻碍了保留所有可能有用的东西。我们读过的每本书都没有电子版,这可能是“我的生活片段”最大的弱点。这并不是因为我们想用电脑屏幕来阅读书籍。相反,我们希望计算机“读”书并帮助我们回忆书中的内容。原则上,我们可以扫描我们的书,但由于扫描成本正在下降,而且未来有可能会有这些书,所以我们决定不麻烦了。

我们观察到,捕捉到的信息越多,相关性就越有可能帮助找到东西。例如,假设你想要引用一份文件,但想不起来它的任何内容,但你记得去年访问波士顿时看过它。然后,可以选择一个GPS追踪条目,并对当天的所有事件执行搜索,其中会出现编辑文档的条目及其名称。我们可以举出很多这样的例子——也许你还记得那天很热;也许你记得日历上有个约会;也许你还记得在你的桌面上打开了很多窗口。系统日志越多,就越有可能获得“记忆钩”,帮助您找到所寻找的内容。我们从不后悔俘获;但我们常常后悔没有捕捉到更多。存储空间基本上是免费的,我们总是可以添加软件过滤掉不太有趣的物品。

由于存储所有内容并能够使用各种元数据属性进行透视或关联,实际产生的一些查询包括:从电子邮件消息、发票或收件人的感谢信息中查找图书的标题;在写论文和乘火车通勤时检索网页以供参考;通过检索承包商的规格和发票,找到在过去的家庭装修中使用的特定瓷砖模型;通过查看所有关于“存储”的信件来回忆一个遥远的同事;重放存储的电话信息以获取姓名或可能共享此类信息;使用调用者名称来识别特定的调用时间,以检索当时正在查看的Web页面。

虽然回忆是至关重要的,但是集合太大了,用户无法记住很多内容,也永远不会搜索它们——实际上永远不会“使用”它们。因此,屏幕保护程序是一个杀手级应用程序。我们的视频展示了照片和短视频剪辑(从较长的视频文件中选择)。“我的生活片段”屏保可以让我们在愉快地刷新记忆的同时,享受更多的图片和视频;在使用屏保之前,几乎从未看过视频。此外,屏保是一个鼓励评论和评分的好地方。在家庭活动室的背景下,评论媒体已经成为一种有趣的活动。孩子们也加入进来,想知道接下来会发生什么?谁能说点有趣的?此外,我们观察到,家庭活动室中的屏幕保护程序经常以普通对话的形式引发评论; by capturing these comments their number and value increase.

随着包括电子邮件、Web页面访问、会议等在内的大量内容的流动,加上我们有强大的方法来搜索内容,人们可能会得出这样的结论:不需要组织。实际上,所有东西都可以放在一个大文件夹中,并根据内容检索项目。这与五年前项目开始时的方式完全相反——超过3万件物品被命名并放置在大约1500个文件夹中,检索主要是根据名称。这两种观点都是有效的——组织原则属于分类和本体的领域,包括语义网。然而,有了大量的信息,用户不仅不愿意这样做,而且实际上无法这样做。构建有用的分类需要特殊的技能。我们和其他人的第一反应是希望元数据和层次结构不再有用。但全文搜索还不够;根据我们的经验,许多道具需要一些其他属性才能找到。此外,分层组织方案的发展有很好的理由:扁平标记系统难以应对规模。 Hierarchy allows for broadening and narrowing one's scope in a meaningful way. To avoid having to become professional curators constructing our own personal classifications, we have become interested in classification sharing. We are experimenting with hierarchical classifications that will be developed by others to be downloaded by the user, and which contain extra information such as synonyms and descriptions to ease their use. One such classification we have developed is document type, which contains several hundred unique entries such as article, bill, will, business card, report card, greeting card, and birth certificate. Document type can be broken into a few different dimensions such as size, form, content, and supplier to enhance retrieval.

但是,即使有了方便的分类和标签,我们仍然要求用户成为一个文件管理员,手动注释每一个文档、电子邮件消息、照片或对话。我们已经致力于改进工具,并且在一定程度上它们是有效的,但是为了提供更高的收集覆盖率,更多的工作必须自动完成。第一步很简单,就是停止抛出任何可能有用的元数据。时间可能是我们数据库中最重要的属性,然而一些照片编辑程序会删除照片拍摄日期的值。只要有时间和地点就已经是进步了。甚至在这个范围内,捕捉本身也必须更加自动化,这样用户就不会为了成为自己的传记作者而被迫中断自己的正常生活。

阻碍使用新的组织技术的一个因素是电子邮件客户端、遗留文件系统和其他应用程序对它们自己独立的层次结构的依赖。我们同意Boardman的观点[2文件夹结构应该在我们的案例中集成,也应该与我们更灵活的集合结构集成。具有适当可视化的报表工具是非常有用的应用程序。一个简单的基于查询的工具可以非常有见地和有用,从“我如何花费我的时间”到“计算不同项目使用的空间”。报告可以追踪正在进行的工作或正在考虑的事情,例如通过绘制“预算”或“提名委员会”这个词与时间的关系。图2 c显示每个活动屏幕每小时和每天的鼠标和键盘活动。通过这种方式,可以记录文档、电子表格、Web页面或其他活动上的工作量。

可以帮助创建或自动创建旅行日记和故事的程序将大大增加使用,特别是对于那些对内容一无所知的未来观众。例如,对我们和我们的后代来说,一个带有时间轴、动画地图和注释的钓鱼旅行日记要比一个带有标签的文件夹中没有标签的照片集合更有价值。

新的捕获设备极大地扩展了个人记录的性质。被动拍照使用传感器增强(见图3一SenseCam也很有前途5这样,一台相机一天能拍下几千张照片图3 b),包括语音评论、对话和位置。图3 cBodyMedia随身臂带记录每一步的行走、心率和热量输出,为我们提供了对未来的另一种了解。

虽然我们可以预见到有一天一切都可以被捕获、容易发现和利用,但还不清楚这种能力是否总是需要的,在某些情况下是否允许。例如,终身捕获[4)提出了许多超出我们研究范围的问题,涉及到法律和社会问题(关于这个主题的更多内容,请参阅本期的文章“泛在计算和充足存储时代的数字内存”)。

回到顶部

结论

计算机的最初50年是由数字和文本主导的。个人电脑中的大部分项目是通信,包括电子邮件、电子表格、论文和演示文稿。计算机的下一个时代将超越打字机、计算器和通信设备,它将捕捉、存储、组织和呈现个人一生的档案,并扩展到包括多媒体(图像、视频、声音),然后甚至更远。从根本上说,它是一个事务处理系统,它几乎以有意义的分辨率记录一个人生活中的一切——用户与他人的交互,以及记录位置、卡路里、心率、温度、步数、网页、鼠标点击和心跳。

无论我们在这个项目中添加了多少工具,似乎总是有无穷无尽的新功能需要添加,新的问题需要回答。然而,我们已经创建了一个非常有用的面向数据库的平台,它可以促进这些应用程序的探索。“我的生活片段”将作为一个研究平台,因为我们将继续研究与个人终身存储相关的许多问题。它为我们所相信的未来个人电脑必须成为什么树立了一个新的基准。

回到顶部

参考文献

1.一个个人数字商店。Commun。ACM 441(2001年1月),8691。

2.有效的工作空间:走向统一的个人信息管理。在HCI2002论文集,人与计算机第十六:不可磨灭的无形。卷2,2167伦敦,2002年。

3.正如我们可能认为的那样。大西洋月刊/(1945年7月),101108。

4.Cheng, W., Golubchik, L.和Kay, D.全面回忆:隐私变化是不可避免的吗?在第一届ACM个人经验连续归档和检索研讨会论文集(CARPE’04)(2004年10月15日,纽约),8692。

5.Gemmell, J., Williams, L., Wood, K., Bell, G.和Lueder, R.个人终身存储的被动捕获和后续问题。在第一届ACM个人经验连续归档和检索研讨会论文集(CARPE’04)(2004年10月15日,纽约),4855。

回到顶部

作者

Jim Gemmell(jgemmell@microsoft.com)是华盛顿州雷德蒙德微软研究院的研究员。

戈登•贝尔(gbell@microsoft.com)是加州旧金山微软研究院的高级研究员。

罗杰Lueder(rlueder@microsoft.com)是华盛顿州雷德蒙德微软公司的一名软件开发工程师。

回到顶部

脚注

1最初的项目名为CyberAll,后来发现这个名字已经被联合服务国际公司(United Services International)使用。

回到顶部

数据

F1图1。MyLifeBits平台存储和捕获/显示工具套件。

F2图2。a.地图界面:粉色点为GPS点,红色点为照片点,蓝色线用于动画旅行回放。b.当照片与事件相关联时,日历就变成了照片日记。c. GUI活动日志每小时或每天(由George Robertson提供)。

F3图3。a. SenseCam光强和振动随时间的变化。b.基于触发传感器拍摄的SenseCam照片。c. BodyMedia使用BodyBugg臂带传感器每分钟燃烧的卡路里。

回到顶部

UT1表格戈登·贝尔在2005年11月左右的内容格式。

回到顶部


©2006 acm 0001-0782/06/0100 $5.00

允许为个人或课堂使用本作品的全部或部分制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。

数字图书馆是由计算机协会出版的。版权所有©2006 ACM, Inc.


没有找到条目

Baidu
map