acm-header
登录

ACM通信

BLOG@CACM

大数据,大问题


麻省理工学院兼职教授Michael Stonebraker说

最近我参加了一个会议,与另一所大学的一位科学教授进行了交谈。他发表了以下令人震惊的声明。

他在研究中使用了近1 PB的数据。此外,他还调查了他所在大学的其他科研小组,发现了另外19个小组,每个小组的数据都超过100tb (TB)。换句话说,他所在大学的20个研究小组拥有100 tb - 1pb大小的数据集。

我立刻说:“为什么不让你们大学的IT服务部门建立一个20拍字节的集群呢?”

他的回答是:“没有人认为他们已经准备好这么做了。这是研究性计算,与常规的IT非常不同。研究计算的权衡与企业IT非常不同。”

然后我问:“为什么不把你的数据放到EC2上呢?”[EC2是亚马逊的弹性计算云服务。]

他的回答是:“EC2存储对我的研究预算来说太贵了;你基本上每个月都要购买存储空间。另外,我怎么把PB移动到亚马逊?运动鞋网盘(通过美国邮寄到亚马逊的网盘)不太吸引人。”

因此,他正在启动一个由20个研究小组组成的联盟,该联盟将支撑所需的服务器。换句话说,这个联盟将运行自己的大规模数据服务器。

这让我想起了几年前詹姆斯•汉密尔顿(James Hamilton)在亚马逊(Amazon)的一次演讲。他声称,在运行面向网格的数据中心时,存在着难以置信的规模经济(也就是说,如果您运行10万个节点,那么您的成本只是运行1000个节点数据中心成本的一小部分)。许多节省的成本来自意想不到的地方。例如,设计一个物理数据中心(抬高的地板,不间断的电源供应,等等)是小人物只做一次的事情,而大人物则把它变成了一门科学。此外,人员成本的增长速度远远慢于节点数量的增长速度。

我想至少有20所大学和上面提到的那所大学有相同的特点。此外,我的假设是这20 x 20 = 400个研究小组从少数政府机构获得资金。拥有一个所有研究人员都共享的400-PB系统将是非常合理的。

实际上,这篇博文是一篇“战斗号令”。美国政府机构正在投入大量资金,推动大规模计算服务器的发展。然而,他们似乎忽略了一个事实,即许多研究小组存在严重的数据管理问题。

为什么不把“大规模计算”预算的一小部分投资在“大规模数据管理”上呢?首先建立一个由了解大数据的人运行的400 pb数据服务器。我很容易想到几个具有所需专业知识的组织。这将是一个更好的解决方案,比一大堆由单个科学团体组成的财团运行的小型系统要好得多。

一定有更好的办法。毕竟,这个问题只会变得更糟。


评论


约瑟夫·麦卡锡

有趣的…考虑到美国国家科学基金会(NSF)最近宣布了其新的数据管理政策,这或许是非常及时的:

http://www.nsf.gov/bfa/dias/policy/dmp.jsp

DMP FAQ中的第5个问题及其答案表明,可能有一些支持[至少对美国的研究[由NSF资助]]。

http://www.nsf.gov/bfa/dias/policy/dmpfaqs.jsp#5

“5。预算及其理由是否应具体说明执行数据管理计划的成本?

[Y]。只要根据适用的成本原则,这些成本是允许的,并且是执行数据管理计划所必需的,这些成本可以包括在提案预算中(通常在第G2行),并在预算说明中说明。”

作为替代方案,我想知道亚马逊、微软或其他提供大规模数据管理服务的大型供应商是否会倾向于为大学提供某种水平的服务,或在教育方面提供大幅折扣。


显示1评论

登录为完全访问
»忘记密码? »创建ACM Web帐号
Baidu
map