深度学习已经改变了许多领域。在处理诸如语音识别、计算机视觉、预测分析,甚至是医疗诊断等复杂任务时,这些系统始终如一地达到甚至超过人类水平的性能。然而,深度学习——主要基于人工神经网络的机器学习系统的总称——并非没有局限性。随着数据变得非平面化和更加复杂,机器识别模式的能力显著下降。
问题的核心是深度学习框架的基本机制。英国帝国理工学院计算系教授Michael Bronstein指出:“只需两层,一个简单的感知器类型的网络就可以将任何平滑函数近似为任何期望的精度,这一特性被称为‘普遍近似’。“然而,多层感知器显示出非常弱的归纳偏差,也就是说,它们对手头问题的结构假设很少,如果应用于高维数据,就会惨败。”
数字卷积神经网络很难处理三维数据的体积和复杂性,这凸显了几何深度学习的必要性。
简单地说,这些系统可以近似复杂的函数,但对于以前未见过的数据和不熟悉的例子,它们不能很好地泛化。因此,当该技术应用于复杂的计算机视觉和图像识别问题时,简单的神经网络通常需要庞大的训练集。尽管现在的卷积神经网络(CNNs)通过使用小型局部滤波器处理图像提供了更强的归纳偏差,但它们被设计用于处理一维和二维(2D)数据,如照片或音频文件。设计能够处理分子、数据树、网络和流形等更复杂实体的神经网络,将任务推到了非欧氏世界。
这时一个叫做几何深度学习的概念就出现了。它依赖于一大类方法,这些方法使用“几何”归纳偏差和概念来解释非欧几里德结构,如图和流形。荷兰阿姆斯特丹大学教授兼研究主席、高通技术副总裁Max Welling解释说:“当你采用3D(三维)深度学习时,你会极大地增加卷积网络中的可能性。”“这项技术有许多令人兴奋的应用。”
几何深度学习的目标是扩展数据科学,就像3D图像比2D照片提供更多的洞察力和视角一样。纽约大学库兰特研究所和数据科学中心的计算机科学、数据科学和数学助理教授Joan Bruna Estrach说:“这与物理学有一种天然的联系,在某种意义上,几何属性通常通过对称性来表达。”这包括出现在气候科学、分子生物学和许多其他物理科学领域的信号。
几何深度学习建立在机器学习的丰富历史之上。第一个人工神经网络被称为“感知器”,是由弗兰克·罗森布拉特(Frank Rosenblatt)在20世纪50年代发明的。早期的“深度”神经网络是由苏联数学家阿列克谢·伊瓦赫年科在20世纪60年代训练出来的。1989年,一组研究人员取得了重大进展,其中包括纽约大学教授和ACM A.M.图灵奖得主Yann LeCun,设计了现今经典的卷积神经网络(CNN)。该小组使用cnn来解决计算机视觉问题,这些问题在当时被认为是非常困难的,包括手写数字识别。
赋予神经网络表达能力的是“基于将神经元连接到多个层的模块化设计,这些层可以发现高度复杂的问题。”当数据通过CNN的不同层时,每一层都依赖于前一层来提取更详细的信息。例如,在一张蝴蝶的照片中,初始层可以从像素模式中识别基本形状,第二层神经层可以检测天线和翅膀等特征,而另一层可以检测颜色和其他特征。一个算法可以确定一个物体是一只蝴蝶,还是不是。卷积滤波器的使用赋予cnn一个重要的属性,称为移位等方差,这意味着它们可以识别物体,无论它们位于图像中的什么位置。
然而,这里有一个问题。许多物体和事物——从分子和人体器官的扫描到自动驾驶汽车必须行驶的街道——都是3D的,比蝴蝶、斑马或人脸的平面照片复杂得多。这些3D物体拥有更多的自由度,而且两点之间的最短距离并不一定是2D图像或照片中出现的距离。因此,CNN很难处理这些数据的数量和复杂性。打个比方,cnn缺乏超越欧几里得几何平面地球的能力。因此,生物学、化学、物理学、网络科学、计算机图形学和社交媒体等领域的研究人员发现,他们探索重要数据科学问题的能力在一定程度上受到了限制。
2015年,Bronstein引入了术语“几何深度学习”来描述具有几何归纳偏差的神经网络体系结构,可应用于曲面(或几何术语中的“流形”)和图的数据结构。这些图是网络的数学抽象,在涉及关系和交互系统的广泛应用中特别有用。通过以非欧氏方式分析一个物体,包括检查像素的边缘和改变卷积神经网络过滤数据的方式,系统可以更多地了解像素之间的关系。
当数据通过卷积神经网络时,每一层都依赖于上一层来提取更详细的信息。
事实上,基于图的深度学习,也被称为“图表示学习”或“关系归纳偏差”,与经典cnn有许多相似之处,但同时又非常不同。Bronstein说:“与卷积神经网络类似,图神经网络使用共享参数执行局部操作,以每个节点及其邻居之间的‘消息传递’的形式实现。”然而,与用于网格结构数据的卷积操作不同,图操作是排列不变的,这意味着它们不识别节点的顺序。
几何深度学习并不是对经典深度学习的完全突破。事实上,布鲁纳指出:“如果你看看研究人员主要处理的算法和架构,就会发现它们有很大的重叠。”“在现实中,深度学习代表了一个日益结构化的体系结构的连续体,反映了物理世界的归纳偏差。”布鲁纳说,cnn是一种更基本的翻译对称的“规范实例”。他说:“几何深度学习提供了一个工具包来表达对称性和(过程),这对特定任务或计算问题类型最有效。”
这项技术为理解数据开辟了新的前景。荷兰阿姆斯特丹大学的一组研究人员,包括机器学习研究员和博士候选人塔克·科恩(Taco Cohen),在2018年推动了该领域的发展,当时他们找到了一种方法,将关于图像和模型的基本假设编码到几何深度学习算法中。通过扫描整个体积的像素平面,创建一个3D地图,并使用人工神经网络,他们能够在研究肺癌计算机断层扫描(CT)时超越传统的CNN方法。这种方法只使用了十分之一的数据,就产生了与传统cnn相当的结果。科恩解释说:“传统的卷积网络需要在每个方向上学习肺结节的外观,而我们的网络可以自动识别结节,无论其方向如何,因为它的旋转等方差特性。”
随着研究小组继续研究各种模型,他们证实了他们的方法可以解决等方差问题,也被称为物理上的协方差。换句话说,相同的数据以不同的方式呈现或由不同的系统收集产生相同的结果。然后,当他们分析气候数据时,他们发现传统训练的cnn在识别极端天气模式(如气旋)方面的准确率高达74%。同样的数据通过他们制作的几何学习测量仪CNN进行检测,准确率接近98%。
科学家们正转向几何深度学习来探索需要高度精确结果的复杂问题。
当研究人员试图开发检测和预测生物、化学和物理学事件的模型时,其后果是显而易见的。韦林解释说:“通过应用物理学和数学中的思想来产生新的深度学习模型,我们可以获得大量显著的见解。”虽然这项技术仍处于初级阶段,但它已经显示出惊人的潜力。布朗斯坦说,这种方法可能会彻底改变从材料科学到医学,甚至是社交媒体的一切。它将帮助科学家发现新的化合物组合,从而产生新型抗生素和更有效的抗癌药物。
然而,好处还不止于此。几何深度学习可以忽略那些导致传统cnn完全失控的恼人变化。“一个标准的卷积神经网络可以识别视觉模式,不管它们在图像平面上是如何移动的,但很容易被旋转的模式混淆。”Cohen说。
不足为奇的是,开发几何深度学习系统仍然面临挑战,这些系统完全具备解决现实世界问题的能力。Bronstein说,目前,可伸缩性是限制工业应用的一个关键因素。“现实生活中的应用程序经常需要处理具有数亿个节点和数十亿条边的非常大的图,比如Twitter和Facebook的社交图。到目前为止,几何深度学习的学术研究的重点主要是开发新的模型,直到最近这些重要的方面几乎被完全忽视。因此,许多图神经网络模型完全不适合大规模设置。”
限制几何深度学习的另一个关键因素是真实的系统不是静态的;它们随着时间的推移而演变,因此需要能够处理动态图的方法。布朗斯坦说:“这个话题在文献中也很少被提及。”
还有一个障碍是开发专门用于解决几何深度学习的芯片和硬件。今天的系统使用图形处理单元(gpu)和中央处理器(cpu),这对于处理像素流的传统cnn来说非常理想。但是,它们不一定最适合图结构数据,因为图结构数据的顺序是随机的。“从长远来看,我们可能需要专门的图形硬件,”Bronstein说。
尽管如此,这一领域仍在继续发展。科学家们正转向几何深度学习来探索需要高度精确结果的复杂问题。在对该领域特别感兴趣的人中,有物理学家和化学家,他们的工作是基于事先已知的基本数据结构,处理大量且非常不同的数据集。几何深度学习极大地提高了他们理解分子结构、宇宙学图和费曼图的能力,这些图用非常复杂的三维亚原子粒子的图像表示。
韦林总结道:“几何深度学习和标准等变cnn很可能成为数据科学工具包中的标准工具。他们进步迅速,因为人们越来越认识到,他们可以解决全新的、完全不同的一系列问题。”
进一步的阅读
LeCun, Y., Bottou, L., Bengio, Y.,和Haffner, P ..
基于梯度的学习在文档识别中的应用IEEE学报1998年11月。卷:86,期:11。https://ieeexplore.ieee.org/document/726791
布朗斯坦,m.m.,布鲁娜,J.,勒昆,Y.,斯兰,A.和范德海恩斯特,P ..
几何深度学习:超越欧氏数据,IEEE信号处理杂志.2017年7月。卷:34,期:4。https://ieeexplore.ieee.org/abstract/document/7974879
Masci, Rodolà, E., Boscaini, D., Bronstein, m.m.,和Li, H ..
几何深度学习。SA '16: SIGGRAPH ASIA 2016课程.2016年11月。货号。: 1,页1 - 50。https://doi.org/10.1145/2988458.2988485
科恩,t.s.,韦勒,M.,基卡那奥卢,B.,韦林,M..
度量等变卷积网络与二十面体CNN,国际机器学习会议论文集, 2019年https://arxiv.org/abs/1902.04615
T.S.科恩和M.
可操纵的cnn,学习表征国际会议论文集, 2017年。https://arxiv.org/abs/1612.08498
©2021 acm 0001-0782/21/1
允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。
数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc.
没有找到条目