acm-header
登录

ACM通信

研究突出了

技术视角:计算机硬件的专业化趋势


当我们转向更小的技术节点时,Dennard扩展的分解已经成为计算机架构师面临的一个新的挑战。在过去,Dennard缩放意味着速度增加、功率下降和面积缩小。而且,按照摩尔定律,这种三赢是在没有明显增加芯片成本的情况下实现的。摩尔定律主导的cmos技术时代即将结束,随着我们向20纳米以下特征尺寸过渡,至少有两项速度和功率方面的改进正在停滞不前。事实上,一些权威人士认为,就每个晶体管的成本而言,28nm节点可能是最便宜的节点。

这种扩展速度的放缓将对整个计算领域产生深远的影响,首先是未来硬件系统的架构方式,届时功能增加和功率限制将成为常态。这一点在移动平台上表现得最为明显,尤其是智能手机,在不影响电池寿命的前提下,人们对功能的要求越来越高。再也不可能为了满足更严格的能源性能限制而简单地转向下一代通用计算机。

提高能源效率的另一种选择是专业化,但只有在需求显著的情况下才有经济意义。通过设计具有一定程度可编程性的特定于应用程序领域的组件,通常可以找到一种平衡,这种组件足以开辟显著的应用程序空间。下面这篇论文中的工作就是这样做的。

作者提出了一种可编程的卷积引擎,它将一维或二维模板(或模板)与一维或2D数据数组进行卷积,二维图像就是一个典型的例子。模具比图像小得多。它可以小到3x3像素,而图像可能有数亿像素。它的大小是可编程的,就像它执行的功能一样。这种操作的适用性是广泛的,特别是在图像处理,计算机视觉,以及新兴的虚拟现实领域。移动平台对这类功能的快速采用,强调了它们需要以一种节能的方式执行:为卷积设计专门的处理器并不难。这一概念是作者研究可编程卷积引擎背后的动力。


作者提出了一项详细的研究,以表明他们的设计适合在固定功能硬件和通用硬件之间的空间。


在可编程卷积引擎的空间中,仍然有一些重要的设计选择需要做出,以使大多数决策专业化。为了指导这些选择,作者做出了一个至关重要的观察:“专门的单元通过调优数据存储结构来满足算法的数据流和数据位置需求,从而实现它们的大部分效率收益。”这一重要的观察结果大大提高了电源性能效率。卷积涉及大量的数据移动,例如必须从内存中访问一幅较大的图像。这些访问遵循良好定义的模式,一旦知道特定类型的卷积和模板的大小,就可以预先计算这些模式。经过深思熟虑的设计,允许执行这些访问模式,从而最大限度地减少冗余访问,大大降低功耗,同时加快计算速度。

最后,作者提出了一项详细的研究,以表明他们的设计适合于固定功能硬件和通用硬件之间的空间。具体来说,他们考虑了范围的两端:自定义实现和使用SIMD指令扩充的通用处理器。SIMD指令模拟了在商业处理器中发现的类似特性,例如Intel的Streaming SIMD Extensions和ARM的NEON扩展。他们的卷积引擎实现的能量和面积效率是通用处理器加SIMD的815倍,但是定制单位的23倍。这个分析很好地说明了具有一定程度可编程性的专业化的优点和缺点。最后,这个分析本身是值得研究的,因为它提供了当今处理器中能源和面积消耗的最清晰的检查之一。

回到顶部

作者

特雷福玛吉tnm@eecs.umich.edu)是密歇根大学安娜堡分校EECS系的布莱特家族工程学教授。


版权归作者所有。

数字图书馆是由计算机协会出版的。版权所有©2015 ACM股份有限公司


没有发现记录

Baidu
map