acm-header
登录

ACM通信

BLOG@CACM

百亿亿次计算和大数据:是时候重聚了


丹•里德

在其他情况下,我已经详细地写过数据分析(又名机器学习和大数据)和高性能计算(又名大铁)社区的文化和技术分歧。我委婉地称他们为“两地分离的双胞胎”。(见高性能计算、大数据和伯罗奔尼撒战争而且科学云:在风中飘荡).就像所有双胞胎一样,他们共享技术DNA和天生的行为,尽管他们表面上有差异。毕竟,在很久很久以前,他们曾经因为使用BSD UNIX和SUN工作站进行软件开发而联合在一起。

从那时起,两个社区都成功地使用高性能、低成本的x86硬件和一套丰富的(大部分)开源软件工具构建了可伸缩的基础设施。两者都通过开发特殊用途的软件库和工具(例如,SLURM而且动物园管理员对于资源管理和MPI而且Hadoop对于并行性),两者都针对各自的问题域(例如,开放式计算硬件构件标准化,fpga搜索以及机器学习和计算科学的GPU加速器)。

像你们中的许多人一样,作为高性能计算和云计算领域的正式极客,我亲眼目睹了这种演变。我去微软的原因之一是把高性能计算的想法和应用带到云计算的新生世界。在微软的时候,我带领研究团队探索节能的云硬件设计和新的编程模型,我在微软和国家科学基金会之间发起了一项公私合作云应用程序.现在我回到了学术界,我正在寻求将云计算的想法带回高性能计算。

本着这一精神,Jack Dongarra最近我和别人合作写了一篇文章ACM通信关于高性能计算和大数据这两个生态系统以及它们所面临的挑战。资格,百亿亿次级计算和大数据本文研究了它们的共同点和不同点,并讨论了许多与弹性、可编程性、可伸缩性和post-Dennard硬件期货.最重要的是,这篇文章慷慨激昂地呼吁硬件和软件的整合以及文化的融合。

这种融合的可能性是无限的。的算法基础机器学习深将从高性能计算应用程序和库中常用的并行化和数据移动最小化技术中受益。类似地,云软件中常见的容错和系统弹性方法对高性能计算具有广泛的适用性。这两个领域在可行系统的最大尺寸上都面临着日益增长的能源限制,因此必须共同关注领域特定的体系结构优化,以最大限度地提高每焦耳的操作。

也许最重要的是,应用程序领域的重叠越来越多。新一代的科学仪器和传感器正在产生空前数量的观测数据,原位越来越多的算法需要减少原始数据和实时识别重要现象。要明白这一点,只需看看机器学习在天文学上的应用就可以了,它现在包括了自动物体识别。相反,客户端+云服务越来越基于模型,具有丰富的物理、图像处理和上下文,依赖并行算法来满足实时需求;增强现实应用程序就是这样一个例子。

的爆炸式增长码头工人而且集装箱软件管理为日益复杂和丰富的软件环境提供了轻量级、灵活的软件配置管理的需求。我希望我们可以开发一个统一的硬件/软件生态系统,利用每个社区的技术和社会优势。双方都将从对方的经验和见解中受益。这对双胞胎的家庭团聚时间已经过去了。


评论


埃坦哈维

亲爱的教授的芦苇,

我叫Eitan Zahavi,是一名博士生,也是Mellanox的创始人之一。我觉得你的分析很有趣,我倾向于同意其中的大部分。

两个社区的一个不同之处在于应用程序任务之间的紧密同步的使用。一个例子是MapReduce Shuffle的实现(例如在Hadoop上)在每个Mapper和Reducer之间使用许多TCP端口,而一个等效的基于MPI的应用程序可能会使用MPI_Alltoallv,它对于更大的消息将确保不会发生端点拥塞(两个源发送到相同的目的地)。
你认为这种差异是与生俱来的吗?他们的原因是什么?这些问题会得到解决吗?

一个更普遍的区别是所使用的网络技术:主要是用于大数据的以太网和用于高性能计算的互连网络。你认为这些社区有可能在这方面达成一致吗?

谢谢
埃坦


显示1评论

登录为完全访问
»忘记密码? »创建ACM Web帐号
Baidu
map