acm-header
登录

ACM通信

研究突出了

安东,分子动力学模拟专用机器


摘要

对蛋白质和其他生物大分子进行长时间、精确的分子动力学(MD)模拟的能力,原则上可以为目前生物、化学和医学领域中一些最重要的悬而未决的问题提供答案。然而,在一毫秒量级的时间尺度上,大量有趣的生物现象发生了——比目前最长的MD模拟持续时间还要长好几个数量级。

我们描述了一个名为Anton的大规模并行机器,它应该能够执行这种生物分子系统的毫秒级经典MD模拟。该机器计划在2008年底完成,基于512个相同的md专用asic,它们使用专用的高速通信网络以紧密耦合的方式相互作用。Anton被设计为使用新颖的并行算法和特殊用途的逻辑来显著加速那些控制典型MD模拟所需时间的计算。仿真算法的其余部分由每个芯片的可编程部分执行,该部分实现了相当大的并行度,同时保留了必要的灵活性,以适应物理模型和仿真方法的预期进展。

回到顶部

1.简介

分子动力学(MD)模拟可以用于模拟分子系统的运动,包括蛋白质、细胞膜和DNA,在原子级别的细节。足够长的和精确的MD模拟可以让科学家和药物设计者首次可视化许多目前在实验室实验中无法观察到的至关重要的生化现象,包括蛋白质的“折叠”到其原生的三维结构中,蛋白质功能基础的结构变化,以及两种蛋白质之间或蛋白质与候选药物分子之间的相互作用。这样的模拟可以回答生物和化学领域中一些最重要的开放问题,并有潜力对药物开发过程做出实质性贡献。

许多最重要的生物过程都是在一毫秒的时间尺度上发生的。然而,在这个时间尺度上的MD模拟远远超出了当前技术的量级;到目前为止,只有少数MD运行达到了模拟时间的微秒,而且绝大多数都被限制在纳秒的时间尺度上。对于一个包含成千上万个原子的生物分子系统的毫秒级模拟,实际上需要在短短几微秒内计算出所有原子对所有其他原子施加的力——这个过程必须以10的数量级重复12次了。这些要求远远超过了目前最强大的商品集群或通用科学超级计算机的能力。

这篇论文描述了一个名为Anton的专业的大规模并行机器,它被设计用来将MD模拟加速几个数量级,使涉及数万个原子的分子系统的毫秒级模拟成为可能。该机器计划在2008年底完成,初始配置将包括512个处理节点,每个节点包含一个作为单个ASIC实现的专用MD计算引擎。要模拟的分子系统在这些处理节点之间进行空间分解,这些处理节点通过专门的高性能网络连接起来,形成三维环面。Anton的预期性能优势来自于md特定硬件的组合,该硬件实现了非常高的算术密度和新颖的并行算法,通过减少芯片内部和芯片间的通信增强了可伸缩性。图1是第一批安东asic的照片。

在设计Anton及其相关软件时,我们试图解决一个与其他几个部署了大量计算资源用于MD模拟的项目所解决的问题有所不同的问题。Folding@Home项目,16例如,他通过使用多达25万台电脑(由志愿者通过互联网提供)模拟大量独立的分子轨迹,获得了许多重要而有趣的科学结果,每台电脑的时间尺度都受到限制。虽然可以从大量独立的MD轨迹中了解到大量信息,但许多其他重要问题需要对单一的、非常长的轨迹进行检查,这正是设计Anton的主要任务。其他项目,如FASTRUN,6MDGRAPE,22和MD引擎,23已经生产了特殊用途的硬件来加速MD模拟中计算成本最高的元素。这种硬件降低了MD模拟的成本,特别是对于大型分子系统,但Amdahl定律和通信瓶颈阻止了有效地并行使用足够多的此类芯片,以扩展单个模拟超过微秒的时间尺度。

安东是以安东·范·列文虎克的名字命名的,我们希望在自己的工作中效仿他对科学和医学的贡献。17世纪,被称为“显微镜之父”的范·列文虎克(van Leeuwenhoek)建造了高精度的光学仪器,使他得以第一次将当时科学家们所不知道的全新生物世界可视化。我们把安东(这台机器)看作某种“计算显微镜”。在某种程度上,我们和其他研究人员能够增加MD模拟的长度,我们希望为当代生物学和生物医学研究人员提供一个工具,以在更小的长度尺度上理解生物体和它们的疾病。

回到顶部

2.Anton的MD计算

MD计算模拟一组原子的运动化学系统)根据经典物理定律,在一段时间内。1时间被分解成一系列的离散时间的步骤,每一个代表模拟时间的几飞秒。时间步长有两个主要阶段。力的计算计算系统中其他粒子对每个粒子的作用力。集成使用在每个粒子上的合力来更新粒子的位置和速度。

*2.1.力的计算

原子间力是根据a计算的分子力学力场(或者只是力场),它将每个原子上的力建模为所有原子空间坐标的函数。在常用的生物分子力场中,91115这些力量由三个部分组成:债券的力量,原子团的:由不超过三个共价键分隔的原子团;范德华力,计算原子对之间的距离小于某个截止半径(通常选择在5到15 Å之间);而且静电的力量,这是计算量最大的,因为它们必须在所有原子对之间计算。

安东使用k-空间高斯分裂Ewald法(kgse)18减少与静电相互作用有关的计算工作量。该方法将静电力的计算分为两部分。第一个随粒子分离而迅速衰减,并直接计算所有粒子对的分离半径小于截止半径。我们把这种贡献,连同范德华相互作用,称为仅能短程使用交互。第二部分,远程交互,衰减速度较慢,但通过将粒子中的电荷映射到规则网格可以有效计算(传播),对网格电荷进行快速傅里叶变换(FFT),在傅里叶空间中乘以一个适当的函数,执行反FFT,然后从得到的网格值计算粒子上的力(插值)。

为了并行处理范围有限的交互,我们的机器使用了一种我们开发的算法元方法。19与传统并行化方法相比,NT方法在所需的处理器间通信带宽方面实现了渐近和实际的减少。它是众多的中立领土方法这种方法将粒子的空间分配分配到节点上,但通常使用没有粒子驻留的节点计算两个粒子之间的相互作用。4710141721

*2.2.集成

积分阶段使用力计算的结果来更新原子的位置和速度,对描述原子运动的一组常微分方程进行数值积分。由于几个原因,MD中使用的数值积分器是不平凡的。首先,积分算法和处理数值问题的方式对精度有显著影响。其次,一些模拟需要积分器计算和调整全局特性,如温度和压力。最后,通过加入消除最快振动运动的约束,可以显著加速大多数模拟。例如,约束通常用于固定所有氢原子的键长,并使水分子保持刚性。

回到顶部

3.为什么专门的硬件?

一个自然的问题是,用于分子模拟的专用机器是否能比通用硬件获得显著的性能优势。毕竟,历史上到处都是专业机器的尸体,从Lisp机器到数据库加速器,涵盖了巨大的范围。摩尔定律所预测的性能和晶体管计数的增长,以及商品处理器发展背后的规模经济,推动了通用微处理器超越特殊用途解决方案的历史。任何构建专用硬件的计划都必须考虑到通用硬件能力的预期指数增长。

我们得出的结论是,在这种情况下,特殊用途的硬件是有必要的,因为它在绝对性能方面的改善比摩尔定律在开发期间预测的预期加速要大得多,而且因为我们目前正处于模拟具有重大生物学意义的时间尺度的尖端。我们期望Anton运行模拟的速度比我们开始这个项目时的速度快1000倍。假设晶体管密度继续每18个月翻一番,并且这些增长转化为相应的更快的处理器和通信链接,人们可以预期在我们机器的5年开发时间内(从概念化到提出),商品解决方案将大约提高10倍。因此,我们期望一种专门的解决方案能够比普通硬件更快地访问生物关键的毫秒时间尺度。

为了模拟几个月内的一毫秒,我们必须每几微秒完成一个时间步,或者每几千个时钟滴答一次。在MD模拟中,连续时间步的顺序依赖性使得跨时间步的推测极为困难。幸运的是,专门化提供了独特的机会,可以使用减少计算延迟和通信延迟的体系结构特性组合来加速单个时间步骤。

例如,我们通过设计来减少计算延迟:

  • 专用的、专门的硬件数据路径和控制逻辑来评估范围有限的相互作用,并执行电荷扩散和力插值。除了在芯片上封装比典型的通用架构多得多的计算逻辑外,这些管道还为每个操作使用定制的精度。
  • 专门的,但可编程的处理器计算键力和FFT并执行集成。这些处理器的指令集体系结构(ISA)是根据它们执行的计算而定制的。它们的可编程性提供了适应各种力场和集成算法的灵活性。
  • 在内存子系统中专门支持为每个粒子积累力。

我们通过以下设计减少了通信延迟:

  • 一种低延迟、高带宽的网络,包括ASIC内部和ASIC之间的网络,包括对常见MD通信模式(如多播和稀疏数据结构的压缩传输)的专门路由支持。
  • 支持编排的基于“推送”的通信。生产者将结果发送给消费者,而无需消费者事先请求数据。
  • 一组自主直接内存访问(DMA)引擎,它从计算单元中卸载通信任务,允许通信和计算的更多重叠。
  • 允许控制特性,对携带特定算法数据类型的数据包进行优先级排序。

我们的设计与通用超级计算机架构的平衡非常不同。相对于其他高性能计算应用程序,MD使用了大量的通信和计算,但令人惊讶的是内存很少。例如,一个包含25,000个粒子的MD模拟的整个体系结构状态只有1.6 MB,或在512个节点的系统中每个节点只有3.2 KB。我们利用这一特性,只使用sram和ASIC上的小L1缓存,所有的代码和数据在正常运行的芯片上拟合。我们没有把硅区花在大型缓存和激进的内存层次上,而是把它奉献给通信和计算。

令人意外的是,mdd中计算最密集的部分——特别是静电相互作用——也是最完善的,不太可能随着力场模型的发展而改变的,这使它们特别适应硬件加速。然而,大幅度加速MD模拟需要我们加速的不仅仅是“内部循环”。

静电和范德华力的计算约占一个通用处理器上典型MD模拟计算时间的90%。阿姆达尔定律指出,无论我们如何加速这个计算,剩下的计算,如果不加速,将把我们的最大速度限制在10倍。因此,我们将大量的硅区域用于加速其他任务,如键力计算、约束计算、速度和位置更新,适当地结合可编程性以适应各种力场和积分方法。

回到顶部

4.系统架构

系统的构建块是一个节点,描述在图2.每个节点由一个md专用的ASIC、附带的DRAM和6个系统互连网络端口组成。每个ASIC有四个主要子系统,本节将简要介绍。逻辑上相同的节点在三维环面拓扑结构中连接(自然映射到MD模拟中经常使用的周期边界条件)。Anton的初始版本将是512个节点的环面,每个维度有8个节点,但我们的体系结构也支持更大和更小的环面配置。asic的时钟在一个适度的400mhz,除了一个双时钟组件在高通量交互子系统(HTIS),在下一节中讨论。

*4.1.高通量交互子系统

HTIS计算范围有限的相互作用,并执行电荷扩散和力插值。HTIS,其内部结构见图3,对这些操作应用了大量的并行性,这些操作构成了MD中的大部分计算。它使用32个数组提供了巨大的算术吞吐量pairwisepoint交互模块(PPIMs) (图3),每一个都包括一个运行频率为800mhz的力计算管道,能够在每个循环中计算一对原子之间的静电和范德华相互作用。此26级管道(图4)包括加法器、乘数器、函数评估单元和其他专门的数据路径元素。在这个管道中,我们使用定制的数值精度:功能单元宽度在不同的管道阶段不同,但仍然产生足够精确的32位结果。

为了让管道忙于进行有用的计算,其余的HTIS必须确定需要相互作用的原子对,将它们提供给管道,并聚合管道的输出。鉴于ASIC之间、同一ASIC上的HTIS和其他子系统之间以及HTIS内部管道之间的通信带宽限制,这被证明是一个巨大的挑战。我们使用定制的体系结构来解决这个问题指导产品选择和减少操作(DPSRs),它采用两组点,并执行与集合大小的乘积成比例的计算,但只需要与它们的大小之和成比例的输入和输出体积。HTIS考虑的是在一个叫做所有的原子都在一个叫做盘子里。塔中的每个原子分配给一个PPIM,而板中的每个原子分配给所有PPIM。八个匹配单元在每个PPIM执行几个测试,包括一个低精度的距离检查,以确定哪些对板和塔颗粒被送入力计算管道。因为HTIS是一个流架构,在它的计算路径中没有反馈,所以很容易将PPIM数组扩展到任意数量的PPIM。HTIS还包括交互控制块处理器,它控制通过HTIS的数据流。关于HTIS和DPSR操作的更多细节可以在今年HPCA会议的会议记录中找到。13

ppim是我们体系结构中最硬连接的组件,反映了这样一个事实,即它们处理MD计算中计算密集程度最高的部分。也就是说,即使是ppim也包含了可编程性,我们可以预测未来力场的潜在变化。例如,范德华和静电相互作用的函数形式是使用SRAM查找表指定的,其内容在运行时确定。

*4.2.灵活的子系统

灵活的子系统控制ASIC和处理所有其他计算,包括键合力计算,FFT和积分。图5显示柔性子系统的组成部分。4个相同的处理片形成柔性子系统的核心。每个片包括一个通用核心及其缓存远程访问单元(RAU)执行自动数据传输,以及两个几何核心(gc),它是可编程的核心,执行大部分灵活的子系统的计算。RAU是一个可编程的数据传输引擎,它使灵活的子系统能够参与“推送”通信,既可以卸载从处理器核心发送的消息,也可以跟踪传入的消息,以确定何时可以完成工作。每个GC都是一个双问题、静态调度、4路SIMD处理器,具有流水线乘法累积支持和指令集扩展,以支持常见的MD计算。柔性子系统的其他组件包括校正管道,它计算力校正项;一个跑道,作为一个本地的,内部的连接,为灵活的子系统组件;以及环形接口单元,它允许灵活的子系统组件在通信子系统之间传输数据包。关于柔性子系统的更多细节在今年HPCA会议上的第二篇论文中给出。12

*4.3.通信子系统

通信子系统在ASIC之间和ASIC内的子系统之间提供高速、低延迟的通信。在芯片之间,每个环面链路提供5.3 GB/s全双工通信,跳延迟约50 ns。在一个芯片内,两个256位,400mhz通信环连接所有子系统和六个芯片间环口。通信子系统支持高效的组播,提供流控制,并提供基于类的接入控制和速率计量。通信子系统还允许访问外部主机系统,以输入和输出仿真数据。

*4.4.内存子系统

内存子系统提供访问ASIC的附加DRAM。除了基本的内存读/写访问,内存子系统还支持累积和同步。特殊的内存写操作以数字方式将传入的写数据添加到操作中指定的内存位置的内容中。这些操作实现了力、能量、电位和扩散电荷的累积,减少了柔性子系统的计算和通信负载。通过利用附加的DRAM,安东将能够模拟具有数十亿个原子的化学系统。

回到顶部

5.性能和精度测量

在本节中,我们展示了Anton的性能显著超过其他MD平台,并且Anton能够执行高数值精度的模拟。因为我们还没有一个512节点的工作段,我们的机器的性能估计来自于我们的性能模拟器。该模拟器的周期保真度因组件而异,但我们期望总体保真度高于±20%。

*5.1.性能比较

我们比较了不同MD平台在特定化学系统上的模拟速率(每天执行的模拟时间的纳秒)。在本节和第5.2节中,我们使用一个立方体盒子中有23,558个原子的系统,其边长为62.2Å。这个系统代表了水包围的二氢叶酸还原酶(DHFR),一种被各种抗癌药物靶向的蛋白质。

在一个最先进的商品处理器核心上,性能最高的MD代码为DHFR实现了每天几纳秒的模拟速率。8现有的具有高性能互连的多处理器机器使用数百或数千个处理器核心实现了高达数百纳秒/天的模拟速率。23.5

我们预计512节点Anton系统能够实现DHFR每天约14500纳秒的模拟速率,在两个多月的时间内实现毫秒级的模拟。虽然通用机器的性能无疑将继续提高,但Anton相对于其他MD平台的性能优势将在未来几年大大超过摩尔定律预测的加速。在去年的ISCA会议记录中给出了Anton和其他MD平台更详细的性能比较。20.

*5.2.精度

为了量化力计算对安东的准确性,我们测量相对均方根力误差,定义为作用在所有粒子上的力的均方根误差除以均方根力。18对于具有典型仿真参数的DHFR系统,Anton获得了1.5 × 10的相对均方根力误差4.相对均方根力误差小于103一般认为对于生物分子MD模拟是足够准确的。25

我们还测量了能量漂移来量化我们模拟的整体准确性。精确的MD模拟能精确地节约能量。模拟中的误差通常会导致被模拟系统的总能量随时间而增加,这种现象称为能量漂移。我们测量了DHFR在5纳斯(200万时间步)模拟时间内的能量漂移,使用了位精确数值模拟器,该模拟器完全重复Anton的算法。虽然模拟显示了几千卡/摩尔的短期能量波动(约为系统总能量的0.001%),但总能量没有可检测到的长期趋势。MD研究通常被认为是足够的,即使有明显更高的能量漂移。24

*5.3.根据化学系统大小进行缩放

图6显示了性能与化学系统规模的比例关系。在化学系统适合片上存储器的范围内,我们预计性能将大致随原子数量线性扩展,尽管在不同的操作参数改变时偶尔会出现跳跃,以优化性能,同时保持精度。模拟率中最大的不连续发生在系统体积约为500,000 Å时3.当我们从32 × 32 × 32 FFT网格改为64 × 64 × 64 FFT网格时,反映了我们的代码只支持两倍长度的FFT的事实。这延长了长期计算,因为网格点的数量增加了8倍。总的来说,结果与超级计算机放大研究一致,当我们增加化学系统的规模时,Anton的效率提高了,因为通信和计算更好地重叠,因为计算管道更接近峰值效率。

回到顶部

6.结论

我们目前正在构建一个专门的大规模并行机器,称为Anton,用于高速执行MD模拟。我们期望Anton能够在明确表示的溶剂环境中模拟蛋白质和其他生物大分子的动态、原子级行为,时间在一毫秒量级上——大约是目前MD模拟所能达到的三个数量级。该机器使用专用的asic,每个asic在每个时钟周期内执行大量特定于应用程序的计算。新颖的体系结构和算法技术被用于最小化芯片内部和芯片间的通信,提供了异常高的可伸缩性。

虽然它包含可编程的元素,原则上可以支持并行执行算法,用于广泛的其他应用,但Anton并不是被设计成一个通用的科学超级计算机,在实践中也不太适合这样的角色。相反,我们设想Anton作为一个计算显微镜,允许研究人员第一次观察到广泛的生物重要结构和过程,这些结构和过程迄今为止被证明无法通过计算建模和实验室实验。

回到顶部

参考文献

1.分子动力学:模拟蛋白质活性的方法综述。化学复习,106:15891615, 2006年。

2.Bhatele, A., Kumar, S., Mei, C., Phillips, j.c., Zheng, G.,和Kale, L.V.跨越多个平台的生物分子模拟克服缩放挑战,出现在IEEE国际并行与分布式处理研讨会论文集,2008年佛罗里达州迈阿密的。

3.鲍尔斯,k.j.,周,E.,许,H., Dror, R.O,伊斯特伍德,M.P,格雷格森,b.a., Klepeis, j.l., Kolossvary, I., Moraes, M.A, Sacerdoti, f.d., Salmon, j.k., Shan, Y.,和Shaw, D.E.商品集群分子动力学模拟的可扩展算法。ACM论文集//IEEE超级计算会议(SC06)。佛罗里达州坦帕市的2006年。

4.Bowers, K.J, Dror, R.O,和Shaw, D.E.并行执行范围有限n体问题的分区方法。计算物理杂志,221(1): 303329、2007。

5.Fitch, b.g., Rayshubskiy, A., Eleftheriou, M., Ward, t.j.c., Giampapa, M.E, Pitman, m.c., Pitera, j.w., Swope, w.c.,和Germain, R.S.蓝色物质:n体模拟扩展到每个节点一个原子。IBM研究与发展杂志,52(1/2), 2008年。

6.法斯特龙:用于分子模拟的特殊用途的硬连线计算机。蛋白质:结构、功能和遗传学,11(4): 242253,1991(勘误:14(3):421422,1992)。

7.Germain, r.s., Fitch, B., Rayshubskiy, A., Eleftheriou, M., Pitman, m.c., Suits, F., Giampapa, M.和Ward, T.J.C.蓝色基因/L上的蓝色物质:生物分子模拟的大规模并行计算。第三届IEEE/ACM/ IFIP软硬件协同设计与系统综合国际会议论文集(CODES + ISSS '05),纽约,纽约,2005年。

8.Hess, B., Kutzner, C., van der Spoel, D.和Lindahl, E. GROMACS 4:高效、负载平衡和可扩展分子模拟的算法。化学理论与计算杂志,4(2): 435447、2008。

9.乔根森,w.l.,麦克斯韦,d.s.,和Tirado-Rives, J. OPLS全原子力场对有机液体构象力能学和性质的发展和测试。美国化学学会杂志,118(45): 1122511236, 1996。

10.Kalé, L., Skeel, R., Bhandarkar, M., Brunner, R., Gursoy, A., Krawetz, N., Phillips, J., Shinozaki, A., Varadarajan, K.,和Schulten, K., NAMD2:并行分子动力学的更大可扩展性。计算物理杂志,151(1): 283312、1999。

11.科尔曼,p.a.,迪克森,r.w.,康奈尔,w.d.,福克斯,T., Chipot, C.和Pohorille, a .“极简”有机/生物分子力学力场的开发/应用,使用从头计算和实验数据的组合,在生物分子系统的计算机模拟:理论与实验应用,范·冈斯特伦,W.F.和韦纳,P.K.。,Dordrecht, Netherlands:ESCOM, pp. 8396, 1997.

12.Kuskin, j.s., Young, C, Grossman, J.P, Batson, B, Deneroff, m.m., Dror, R.O,和Shaw, D.E.。将分子动力学模拟专用机器Anton的灵活性结合起来。第十四届高性能计算机体系结构国际研讨会论文集(HPCA-14)盐湖城,UT, 2008年。

13.拉尔森,r.h.,萨蒙,J.K,卓尔,r.o.,德纳洛夫,m.m.,杨。C., Grossman, J.P, Shan, Y., Klepeis, J.L,和Shaw, D.E.分子动力学模拟专用机器Anton的高通量对点相互作用。第十四届高性能计算机体系结构国际研讨会论文集(HPCA-14)盐湖城,UT, 2008年。

14.Liem, S.Y, Brown, D和Clarke, J.H.R.分布式记忆机的分子动力学模拟。计算机物理通信,67(2): 261267、1991。

15.MacKerell, ad . Jr, Bashford, D., Bellott, M., Dunbrack, r.l., Evanseck, j.d., Field, M.J., Fischer, S., Gao, J., Guo, H., Ha, S., Joseph-McCarthy, D., Kuchnir, L., Kuczera, K., Lau, F.T.K, Mattos, C., Michnick, S., Ngo, T., Nguyen, d.t., Prodhom, B., Reiher, III, W.E., Roux, B., Schlenkrich, M., Smith, J.C., Stote, R., Straub, J.,和Karplus, M.J.蛋白质分子建模和动力学研究的全原子经验潜力。物理化学杂志B, 102(18): 35863616, 1998。

16.Pande, v.s., Baker, I., Chapman, J., Elmer, S.P, Khaliq, S., Larson, s.m., Rhee, y.m., Shirts, m.r., Snow, c.d., Sorin, e.j.,和Zagrovic, B.使用全球分布式计算在亚毫秒时间尺度上的原子蛋白质折叠模拟。生物聚合物,68(1): 91109、2003。

17.普林顿,s.j.,阿泰威,S.,亨德里克森,B.,斯韦格尔,J.,沃恩,C.和加德纳,D.瞬态动力学模拟:接触检测和光滑粒子流体动力学的并行算法。ACM//IEEE超级计算会议论文集(超级计算'96),宾夕法尼亚州匹兹堡,1996年。

18.Shan, Y., Klepeis, J.L, Eastwood, M.P, Dror, R.O,和Shaw, D.E.。高斯分割Ewald:分子模拟的快速Ewald网格方法。化学物理杂志,122:054101, 2005年。

19.一种快速、可扩展的并行评估距离有限的成对粒子相互作用的方法。计算化学杂志,26日(13):13181328,2005。

20.Shaw, d.e., Deneroff, m.m., Dror, R.O, Kuskin, j.s., Larson, r.h., Salmon, j.k., Young, c.c, Batson, B, Bowers, K.J, Chao, J.C, Eastwood, M.P, Gagliardo, J., Grossman, J.P, Ho, C.R, lerardi, D.J, Kolossváry, I, Klepeis, J.L, Layman, T, mcleey, C., Moraes, M.A, Mueller, R., Priest, E.C, Shan, Y., Spengler, J, Theobald, M., Towles, B., Wang S.C, Anton,分子动力学模拟专用机器。第34届计算机体系结构年度国际研讨会论文集(ISCA '07),圣地亚哥,加州,2007年。

21.关于带截止的n体计算的注记。计算系统理论,37:295318, 2004年。

22.Taiji, M., Narumi, T., Ohno, Y., Futatsugi, N., Suenaga, A., Takada, N.,和Konagaya, A.,蛋白质探索者:用于分子动力学模拟的petaflops专用计算机系统。ACM/IEEE超级计算会议论文集(SC03),凤凰城,阿兹,2003年。

23.Toyoda, S., Miyagawa, H., Kitamura, K., Amisaki, T., Hashimoto, E., Ikeda, H., Kusumi, A.和Miyakawa, N. MD发动机的发展:用于分子动力学模拟的高速加速器与并行处理器设计。计算化学》杂志上185199(2): 1999。

24.王伟,王文华,史瑞德。偏振力的快速评估。化学物理杂志,123(16): 164107, 2005。

25.Zhou R., Harder, E., Xu H.,和Berne B.J.用于大型生物分子系统的Ewald和粒子网格的高效多时间步法。杂志物理化学,115(5): 23482358, 2001。

回到顶部

作者

所有作者均隶属于纽约D.E. Shaw研究公司。

大卫·e·肖(David.Shaw@DEShawResearch.com)也附属于纽约哥伦比亚大学计算生物学和生物信息学中心。10032

回到顶部

脚注

DOI: http://doi.acm.org/10.1145/1364782.1364802

回到顶部

数据

F1图1所示。安东ASIC。第一批安东asic之一,2008年1月到达。

F2图2。安东处理节点。HTIS在MD模拟中执行最苛刻的计算。灵活的子系统执行剩余的MD计算,协调MD时间步活动,并管理家务任务。

F3图3。高通量交互子系统。HTIS包括32个PPIM阵列和一个嵌入式控制处理器,以协调粒子分布到PPIM阵列。

F4图4。PPIM细节。这个图给出了PPIM中的数值计算单元的含义。图的上半部分显示了匹配单位和粒子记忆。下半部分为受力计算管道的一般结构。

F5图5。灵活的子系统。它是四个相同的处理片(其中一个用左边的方框表示)和一个校正管道单元的集合。处理片之间通过跑道与校正管道通信。各个组件通过图顶部所示的环接口单元与片内通信环进行通信。

F6图6。随着化学系统规模的增加,512节点版本Anton的性能扩展。该图显示了每个化学系统的堆叠柱状图,每个堆叠的高度与模拟时间成正比,假设每隔一个时间步对远程力进行评估。每个堆栈表示执行两个连续时间步骤所需的时间;一种是包括用k-GSE计算远程静电量的“远程时间步长”,另一种是不包括这种计算的“范围有限时间步长”。这些化学系统代表着不同大小的蛋白质和核酸,被水包围着。

回到顶部


©2008 acm 0001-0782/08/0700 $5.00

允许为个人或课堂使用本作品的全部或部分制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。

数字图书馆是由计算机协会出版的。版权所有©2008 ACM, Inc.


没有发现记录

Baidu
map