众包是一种强大的新项目管理和采购策略,它能够实现与无限人群的“公开号召”相关的价值,通常是通过基于web的技术。我们在这里关注的是一种重要的众包形式,即众包的任务是生成或提供资源数据。一般来说,调用基于群体的数据源来获取数据、聚合和/或融合数据、处理数据,或者更直接地,在数据源上开发专用的应用程序或解决方案。
维基百科可能是最早和最著名的众包数据的例子,它说明了基于众包的数据包模型可以实现什么。其他例子包括图片社交标签系统,它利用数百万网络用户建立可搜索的标签图片数据库,交通信息聚合器,如Waze,酒店和电影评级,如TripAdvisor和IMDb。
基于群体的数据源使数据收集过程民主化,减少公司和研究人员对停滞不前、过度使用的数据集的依赖,并可以彻底改变我们的信息世界。但为了与人群一起工作,一个人必须克服几个重要的挑战,如与不同专业知识和可靠性的用户打交道,他们的时间、记忆和注意力都是有限的;处理不确定、主观和矛盾的数据;等等。特定的人群平台通常以特定的方式处理这些挑战,这是特定于应用程序的,很少可共享。这些挑战以及众包的明显潜力引起了科学界的关注,并呼吁为众包开发健全的基础和可证明的有效方法。
人群可以用于各种与数据相关的任务,这些任务通常可以分为两种主要类型。首先,群体可以帮助处理已经收集到的数据,通过提供他们的判断、比较、清理和匹配数据项。第二,人群可以参与收割新或失踪数据。下面这篇论文的一个重要贡献是观察到通过使用人群来收集新数据,我们正在脱离经典收词假设这是传统数据库系统的基础,在传统数据库系统中,数据库在提出查询时就被认为是完整的。也就是说,它包含回答用户查询所需的所有数据。当可以在查询处理过程中召集人群添加新数据时,这一假设就被违背了,即使是简单查询的意义也会受到质疑。特别是,在从人群中收集数据以回答查询时需要解决的一个关键问题是:“是否收集了与查询相关的所有数据?”例如,考虑这样一个查询,它希望从加利福尼亚州对绿色技术感兴趣的公司的名称中收集,或者从纽约的适合儿童的厨师餐厅中收集。我们如何(以及何时)才能确定所有相关答案确实被收集到了?我们怎样才能估计完成任务还需要多少答案呢?
作者证明,当处理人群时,抽样过程显著不同于传统估计器,对相关问题的假设。
处理这个问题的一种自然方法是将收集到的人群答案视为来自可能答案的某个未知底层分布的样本,并使用一些统计方法来估计实际分布。作者证明,当处理人群时,抽样过程显著不同于传统估计器,对相关问题的假设。首先,群体成员通常提供一个答案列表,没有重复,或者换句话说,从底层分布中抽样,没有替换。工作人员还可能从不同的底层分布中进行抽样(例如,一个可能按字母顺序提供答案,而另一个可能按不同的顺序提供答案)。因此,来自人群的有序答案流可以被视为工人之间的有替换抽样,每个工人都对一个没有替换的数据分布进行抽样。此外,当对人群建模时,这些分布必须考虑到常见的人群行为:一些工人比其他人做更多的工作;不是所有的员工都在同一时间到达;员工可能会有不同的意见或偏见。此外,当数据在Web上可用时,多个工作者可以以相同的顺序提供数据(例如,在这里的示例查询中,遵循相同的公司或厨师-餐厅目录),等等。
本文的一个关键贡献是为此类查询开发了一种简单而优雅的众包过程形式化方法,以及在存在群体特定行为的情况下估计结果集大小和查询进度的有效技术。
数字图书馆是由计算机协会出版的。版权所有©2016 ACM, Inc.
没有发现记录