acm-header
登录

ACM通信

BLOG@CACM

不,也许,是的,很明显:告诉未来和过去


微软研究总监丹尼尔·里德

如果你在学术界,你知道学期就要结束了,考试准备和期末成绩的确定就像季节更迭一样确定。无论你是学生还是教师,你都知道这个熟悉的仪式,旧的考试被用来帮助学生准备即将到来的考试。

当我在伊利诺伊大学在美国,我分享这些考试时总是附带一个重要的条件——问题的类型不变,但答案会变。你可能会问,我为什么要提供一个以心传心检查指导吗?虽然在冥想中也能找到启示记分板MESI协议,我的真正动机是鼓励学生思考技术转移和系统优化的相互作用。

在任何给定的时间,一个有效的计算机系统设计是由部件性能、容量和成本的明智组合决定的。计算、网络和存储组件的这些比率决定了在任何点上什么是有效的。通常情况下,这些比率发展得很顺利,但在其他情况下,由于技术转变(例如,从核心存储器到DRAM),会出现中断。(见简单的高性能计算获胜-通常如此)。

在高性能计算中,我们已经多次看到这种转变,比如向量超级计算机被取代对称多处理器然后是商品集群。后者最近被gpu增强了。每一种破坏性的不连续性都会给社区带来挑战。事实上,库伯勒-罗斯模型悲伤的阶段有时是恰当的——否认、愤怒、讨价还价、沮丧和接受,在技术变革的文化中有许多类似的情况。

我最近在整理一些旧的学术论文盒子时想起了这一点。我翻出了一份关于硬件方案的评论,那是我们在2000年写的,当时我还是公司的主管的机子与我们的联盟合作高级计算基础设施伙伴关系(奶嘴)。

简单地说,在2000年,我们提议从一系列smp过渡到基于Linux的商品集群,部署一个比之前提议的性能峰值更高的系统。到那时,商品处理器已经变得足够便宜和强大,当与互连连接,如Myrinet,不同规模的高性能计算在经济上成为可能。然而,这是一个主要的文化转变,新的编程模型基于MPI社区软件支持的另一种模式。

提案被否决了,其中一篇评论总结了原因:

该提议的主要风险在于,该规模的商品集群计算可能无法向用户社区交付高质量的服务。对于科学突破计算来说,机器的实际可用性是开放的,因为它可能非常依赖于消息传递编程,而一些(可能很多)大学研究代码还没有适应消息传递。我认为风险是巨大的,整个项目不是一个高效的科学机器,而是被转移到一个大型的集群计算研发项目。

审稿人是对的;这是方法、架构和编程模型的一个主要转折点,并且存在真正的风险。当然,不接受重大的技术变革也有风险。

幸运的是,这个故事有一个幸福的结局。仅仅几个月后,我们就成功地部署了两个用于全国生产的1万亿次浮点运算商品集群,我们和社区再也没有回头。除了GPU扩展之外,可以说几乎所有的国际高性能计算系统都是基于这种商品设计的某种变体。我们的社区经历了一系列的观点,从不,这是不行的,从怀疑到接受作为传统智慧。

道德(定理)是明确的;太早说对总比太晚说错好,但我们也必须协助文化的转变,从“不”到“可能不”和“好吧,也许”到“是”和“好吧,显然”。如果不这样做,在技术上和社会上都可能产生重大后果。

还有一个推论也值得考虑。今天跨千万亿次和百亿亿次计算的技术转折点是什么。我认为它的核心是源自移动设备的低功耗设计。


没有发现记录

登录为完全访问
»忘记密码? *创建ACM Web帐户
Baidu
map