在本世纪初,深度学习恢复了人工智能(AI)在技术寒冬中多年的声誉。在计算变得可行的几年内,在数千个标记示例上训练的系统开始在特定任务上超过人类的表现。例如,其中一种能够解码因太阳漂白作用而几乎完全无法阅读的路标。
然而,同样的系统也很容易被误导,这一点很快就变得明显起来。
2013年,Christian Szegedy和他在谷歌Brain工作的同事发现,在图像中出现了人类无法察觉的细微像素级变化,这种变化会导致一辆亮黄色的美国校车被深度神经网络(DNN)归类为鸵鸟。
数字生成式对抗网络使用CelebA-HQ训练数据集生成的高分辨率假“名人”图像。
两年后,怀俄明大学(University of Wyoming)的博士生阮安(Anh Nguyen)和同事们开发出了他们所谓的“进化图像”。有些图案是有规则的,只是增加了噪音;其他的看起来像模拟电视广播的静电。两者对人类来说都只是抽象的图像,但这些进化后的图像会被经过常规照片训练的dnn分类为猎豹、犰狳、摩托车,以及系统经过训练识别的任何其他图像。
2017年以路标识别为中心的攻击表明,自动驾驶汽车和其他机器人系统在利用这一意想不到的特性进行攻击时存在潜在漏洞。在一项实验中,来自密歇根大学安娜堡分校的一个团队证明,贴在停车标志上的色彩鲜艳的贴纸可以让DNN将其注册为时速45英里的限速标志。这次和类似的攻击促使美国国防高级研究计划局(DARPA)在今年年初启动了一个项目,试图开发针对这些攻击的实际防御。
困扰深度学习研究人员的关键问题是,为什么深度学习模型似乎会被人类认为是噪音的东西所欺骗。尽管麻省理工学院(MIT)的神经科学教授詹姆斯·迪卡洛(James DiCarlo)和其他人的实验表明,灵长类动物视觉皮层的总体结构与dnn之间存在相似之处,但很明显,机器学习模型基于大脑无法感知或忽略的信息做出决策。
在今年早些时候发表的工作中,麻省理工学院学生运营的Labsix小组发现,dnn识别的特征可以分为他们称之为鲁棒性和非鲁棒性的两组。
博士生、Labsix成员安德鲁·伊利亚斯(Andrew Ilyas)说,就像塞格迪的实验一样,稳健特征是指即使覆盖的像素点发生了少量变化,也能继续提供正确结果的特征。“例如,即使你用一个小的像素级扰动来干扰‘松软的耳朵’,它仍然表明它是‘狗’类。”
另一方面,非健壮的特征可能是纹理或细节,可以通过像素强度或颜色的许多微小变化来伪装。伊利亚斯建议:“想象一下,有一种模式暴露了真正的阶级,但非常微弱。”隐藏它或将其更改为类似于一个完全不同的类的非健壮特性并不需要太多的工作。
对抗性训练为深度神经网络提供了一系列的例子,这些例子试图迫使模型忽略已经被证明是脆弱的特征。
在与Labsix小组类似的工作中,卡内基梅隆大学的王浩涵和同事们发现,从图像中过滤高频信息会恶化他们测试的dnn的性能。伊利亚斯强调,他的团队所做的工作表明,细微的特征是有用的和有代表性的,但它们很容易被颠覆,他说,这强调了“人类和机器学习模型之间的根本错位”。
研究人员已经提出了一系列的方法,试图抵御对抗性的例子。许多人关注的是dnn倾向于将注意力集中在更像噪声的、非健壮的特征上。然而,正如各种对抗措施所表明的那样,攻击并不局限于这些特征。在一个案例中,马里兰大学的一组研究人员使用了一种生成对抗网络(GAN),这种网络类似于合成令人信服的名人照片。这种GAN重建的源图像没有与大多数对抗实例相关的高频噪声,并且在一段时间内被证明很难被愚弄。但最终,另一个团队使用更大规模的变化来扭曲图像,以创建对抗示例,从而击败了Defense-GAN。
到目前为止,最具弹性的方法是对抗性训练。该技术在训练阶段为DNN提供了一系列示例,试图迫使模型忽略被显示为脆弱的特征。这是一种有代价的技术:实验表明,这种训练很容易损害DNN在正常测试图像上的表现;网络开始失去正确概括和分类新图像的能力。它们开始过度拟合训练数据。
“当用对抗性训练训练我们的模型时,我们明确地不鼓励它依赖非健壮的特征。因此,我们迫使它忽略输入中对分类有用的信息,”伊利亚斯指出。“然而,有人可能会说,准确性的下降不一定是坏事。”
Ilyas指出,如果我们期望dnn以与人类相同的方式识别图像,那么基于健壮模型的较低精度可能是对机器学习模型性能的更现实的估计。伊利亚斯说,第六实验室工作的一个目标是通过迫使dnn集中在更大的特征上来缩小人与机器之间的差距。这将使人们更容易解释为什么模型会犯错误。
然而,使用传统的DNN架构,即使从过程中去除非健壮性特征,仍有一段路要走,以缩小与人类的差距。加拿大多伦多矢量研究所的博士后研究员Jörn-Henrik Jacobsen领导的团队发现,完全不同的图像有可能导致相同的预测。不仅如此,专注于健壮特征的对抗性训练dnn似乎更容易受到这个问题的影响。
西班牙卡斯蒂利亚-拉曼查大学(Universidad de Castilla-La Mancha)副教授Oscar Deniz和他的同事进行的一项统计分析表明,机器学习模型存在一个更深层次的问题,可能需要对架构进行改进。Deniz说,对抗性例子的存在是准确性和泛化之间长期权衡的副作用:“从我的角度来看,问题不在于数据,而在于当前的机器学习形式。”
对抗对抗例子的另一种方法不依赖于对已学习模型本身的改变,即找到方法来确定机器学习模型是否没有超出其训练所允许的范围。目前构建dnn的一个主要问题是,它们对自己做出的决定过于自信,无论是正确还是错误。罪魁祸首是大多数DNN实现所使用的“softmax”层,该层用于确定图像在其训练的任何类别中的概率。
谷歌Brain的研究科学家Nicolas Papernot解释说:“softmax层是训练模型的一个很好的工具,因为它创建了一个很好的优化景观,但它不是一个适合进行预测的模型。软最大层不允许模型拒绝做出预测。因此,一旦出现不应该分类的输入,配备softmax的神经网络输出错误的预测也就不足为奇了。”
“深度k近邻”(Deep k-Nearest Neighbors, DkNN)技术最初是由Papernot和宾夕法尼亚州立大学信息与通信科学教授帕特里克·麦克丹尼尔(Patrick McDaniel)在攻读博士学位时开发的,它对机器学习模型在分类过程中做出的决策进行逐层分析,以构建“可信度评分”。对抗性示例往往会导致与单个类不一致的结果,而是与多个不同的类一致。只有在过程的最后,softmax层才会将错误结果的概率提高到足够高的水平,从而使结果偏离目标。
“DkNN解决了由于从有限数据中学习而产生的不确定性,这是不可避免的,”Papernot说。使用DkNN检测对抗示例背后的思想是确保模型只有在有足够的训练数据时才能做出预测,从而能够生成足够高的可信度评分;否则,它会说它不知道,而依赖DNN的系统要么需要寻求第二种意见,要么试图获取更多数据。
博士生Chawin Sitawarin和他的导师David Wagner(加州大学伯克利分校计算机科学教授)一起开发了对DkNN的攻击,他说目前方法的一个问题是它往往会出现假阳性:正确的分类具有异常低的可信度分数。Sitawarin说,分数计算方法的改进可以提高可靠性,类似dknn的技术代表了检测对抗例子的一个有前途的方向。
随着研究在多个领域的继续进行,对这些攻击的防御似乎将与对dnn如何以及为什么学习它们所做的事情的更好理解携手并进。
进一步的阅读
Ilyas, A., Santurkar, S., Tsipras, D., Engstrom, L., Tran, B.和Madry, A.。
对抗性例子不是bug,而是功能ArXiv预印(2019):https://arxiv.org/abs/1905.02175
王浩,吴X,尹P,邢,等
高频成分有助于解释卷积神经网络的泛化ArXiv预印(2019):https://arxiv.org/abs/1905.13545
佩珀诺特,N.和麦克丹尼尔,P.。
深度近邻:走向自信、可解释和健壮的深度学习ArXiv预印(2018):https://arxiv.org/abs/1803.04765
雅各布森,j.h., Behrmannn, J., Carlini N., Tramer, F.和Papernot, N.。
利用规范有界对抗鲁棒性引起的过度不变性ICLR 2019年安全ML研讨会,新奥尔良,路易斯安那州。https://arxiv.org/abs/1903.10484
©2019 acm 0001-0782/19/12
本论文部分或全部的电子版或硬拷贝供个人或课堂使用的许可是免费的,前提是副本不是为了盈利或商业利益而制作或分发的,并且副本的第一页上必须有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有署名的摘要。以其他方式复制,重新发布,在服务器上发布,或重新分发到列表,需要事先特定的许可和/或费用。请求发布权限permissions@acm.org或传真(212)869-0481。
数字图书馆是由计算机协会出版的。版权所有©2019 ACM, Inc.
一篇非常有趣的文章。特别是论文末尾关于在预测中使用“softmax”的段落。我不是ML方面的专家,但我学过几门课程,读过几本书。我即将开始研究一个模型,用于预测特定类型图像的方向。当模型执行预测时,将花时间试验替代技术。
显示1评论