acm-header
登录

ACM通信

BLOG@CACM

我的科学大数据是孤独的


微软研究总监丹尼尔·里德

“大数据”是今天的梗。像所有这些短语一样,它是一个白板每个人都在上面写下自己的故事。那么,是什么大数据?表面上看,这些数据是如此之大,以至于它挑战了人们存储、处理和分析的标准方法。就像所有的形容词一样,“大”也因人而异。如果您的传统数据管理方法是基于电子表格的,那么您可能会将gb视为大数据。相反,如果你在运营一个社交网站或一个主要的搜索引擎,“大”有完全不同的含义,拍字节(petabyte)通常是值得讨论的最小度量单位。

尽管大部分的狂飙运动周边的大数据集中在来自在线消费者行为的大量数据——网站访问和饼干社交网络互动、搜索引擎查询和在线零售——尽管科学和工程领域的大数据问题不同,但它们同样令人生畏。新一代仪器产生的数据的规模和范围,从天文学和高能物理学到地球科学和工程,再到生物学和医学,对我们的技术方法和社会经济结构都构成了挑战。我们只需看看高吞吐量就可以了基因测序仪,大型强子对撞机,全天天文巡天看到挑战和机遇。

技术方法面临的挑战是不言而喻的;任何数量级的变化都不可避免地带来变化,我们需要新的工具和技术来从数据海啸中提取见解。正如已故赫伯特西蒙曾经说过:“……信息的丰富造成注意力的贫乏,需要在可能消耗注意力的过多信息源之间有效分配注意力。”

社会和经济挑战同样困难,尽管很少被讨论。有两个问题值得特别关注,一个是学科内部和跨学科的共享文化,另一个是研究数据可持续性的经济学。

数据共享

一个老笑话将数据挖掘定义为(此处插入所有格手势)数据是我的。可悲的是,这种古老的观点往往是真实的,而不是幽默的。从历史上看,那些首先进行实验并获得新数据的个人和团体积累了竞争性研究的优势,因为他们可以比其他人先提出问题,然后回答问题。大规模、共享的仪器仪表的兴起,需要跨学科和研究文化共享和合作的新模式。当许多群体都能获得相同的数据时,优势就会转移到那些能提出和回答更好问题的人身上。

跨学科数据融合的重要性日益上升,带来了一个比简单的共享更深刻的问题。通常,数据被证明是最有价值的学科和组,而不是它最初被捕获的那些。社交网络数据揭示了疾病的传播;地学数据指导城市规划;大气测量揭示了废水对健康的影响。所有这些有时意想不到的用途都有时间轴和效用,远远超出产生数据的特定研究项目和小组。接下来的问题就变成了我们如何维护这些数据,以及如何跨越文化界限,让其他人能够获取这些数据,特别是当最初的研究数据创建和后来被其他学科使用的时间可能相差几十年的时候。

数据的可持续性

对数据可持续性问题的默认反应通常是建议保留一切。毕竟,设备存储容量持续快速增长。然而,就像冰山一样,存储的原始成本只是数据所有权总成本中最小且最明显的部分。大部分的成本隐藏在其中——元数据管理和创建、访问系统和安全、管理和协调——一些实体必须为可持续性承担这些成本。更有意义的是,数据的创造者很少有技术技能或动机来长期维护数据。在更高层次上,研究机构和大学现在面临着进一步加剧研究数据可持续性的财务压力的财政紧急情况。

即使在经济上最合适的时候,也不是所有的东西都可以或应该被保存。挑战在于创造经济和社会模型,提取更大的研究和经济价值从数据上,为数据可持续性和进一步研究提供补贴。同样重要的是,这些模型可以为选择保留哪些数据和丢弃哪些数据提供背景。为了避免这看起来像是勒德主义者的观点,请记住,图书管理员和档案管理员几千年来一直在对材料进行分类。

简而言之,我们必须找到一种新的前进方式,定义保护知识产权的原则和过程,同时为数据共享和可持续性创造适当的文化和经济奖励。这不仅是单个学科面临的挑战,也是整个社会面临的挑战。我们必须共同努力找到解决办法。


没有发现记录

Baidu
map