acm-header
登录

ACM通信

新闻

问题的根源


从芯片发出的光,插图

资料来源:KTS设计公司

机器学习(ML),系统,特别是深度神经网络,可以在大型数据集中找到微妙的模式,这使它们在图像分类、语音识别、自然语言处理和其他任务中具有强大的能力。尽管有这种能力,或者说正因为有这种能力,这些系统可能会被用来训练它们的数据集中隐藏的规律引入歧途。

当训练数据由于数据来源或准备数据的人的偏见而包含系统性缺陷时,就会出现问题。另一个风险是“过拟合”,即模型很好地预测了有限的训练数据,但当出现新数据时,无论是类似的测试数据还是在现实世界中遇到的控制较少的例子,都会出错。这种差异类似于众所周知的统计问题,即临床试验数据对精心挑选的受试者具有较高的“内部效度”,但对真正的患者可能具有较低的“外部效度”。

因为任何好的ML系统都会找到相同的规律,重新设计它可能无法解决问题。因此,研究人员和公司正在寻找分析和改进基础数据的方法,包括为培训提供额外的“合成”数据。

回到顶部

错误和偏见

人工智能系统中的扭曲对申请贷款或寻求医疗的人产生了深远的影响。为了促进更高的准确性和信心,越来越多的社区正在要求人工智能方面更大的公平、问责和透明度(FAT),并定期举行ACM会议(ACM conference on fairness, accountability and transparency, ACM FAccT)。

然而,许多专家“倾向于把创新集中在模型上,他们忘记了在某些方面模型只是数据的一面镜子,”麻省理工学院(MIT)计算机科学教授、麻省理工学院可部署机器学习中心主任亚历山大·马德里(Aleksander Madry)说。“你真的需要干预数据,以确保你的模型有机会学习正确的概念。”

“看似无辜的事情会影响模型的偏见程度,”Madry说。例如,ImageNet是一组被广泛用于训练的标记图像,它是从照片分享网站Flickr中提取的,它的例子强烈表明螃蟹的自然栖息地是在餐盘上。更严重的是,显示结核病的医学图像通常来自欠发达国家,这些国家的老式成像设备拥有数字签名,系统会学会将其与疾病联系起来。


许多培训集依靠亚马逊“土耳其机械”(Mechanical Turk)项目的在线工作人员来标记数据,这本身就带来了可靠性和偏见问题。


马德里说,在评估这些意外错误的普遍程度方面,“我们只是触及了表面”,但“绝对比我们(有权)预期的要多。”他的团队还探索了标签协议的神秘细节如何导致令人惊讶的分类,然后机器学习工具必须反向工程,以及他们的其他目标。

这些标签问题也可以反映——并且似乎证实——人类注释者的社会偏见。例如,穿白大褂的女性可能更常被贴上“护士”的标签,而不是“医生”或“化学家”。许多培训集依靠亚马逊“土耳其机械”(Mechanical Turk)项目的在线工作人员来标记数据,这本身就带来了可靠性和偏差问题。“如何对这些数据进行注释,使其不会因为标签的选择而泄露出一些偏见?”Madry问道。“在这一点上,所有这些都是一个非常开放的问题,需要紧急解决。”

回到顶部

审计跟踪

人工智能系统可以通过“吸收来自世界的数据”来学习性别歧视和种族歧视,玛格丽特·米切尔(Margaret Mitchell)说,她曾是谷歌的Ethical AI研究小组的负责人,直到今年2月愤然离职。除了不公平之外,体现这些偏见的系统可能无法实现其主要目标,反而会因为对贷款或工作的候选人进行不准确的排名而浪费资源。

此外,最可用和最广泛使用的数据集可能包括系统或随机错误。米切尔说:“数据集的创建一直非常混乱,没有真正形成良好的形式,”所以它“包含了各种我们不想要的东西,垃圾和偏见,没有办法追溯到有问题的来源。”

Mitchell和她的前谷歌同事主张在数据集组装的每个阶段都有更系统的文档。这项努力与其他科学领域越来越多的要求相呼应,要求作者将他们的代码和数据存放在公共存储库中。这种“开放科学”模型可以通过让其他人检查可重复性来提高准确性,但对于那些将自己的数据视为竞争优势的公司来说,这是一种难以接受的推销。

普林斯顿大学计算机科学助理教授Olga Russakovsky和她的团队建立了一个工具,帮助揭示现有大规模图像数据集的偏见。例如,该工具可以分析具有各种属性的训练图片的分布,包括“受保护”的属性,如性别,用户可能希望避免在模型中使用。

设计师可以使用这些信息来策划数据或以其他方式补偿偏差。Russakovsky强调,尽管这些问题在评估公平方面特别重要,但人的选择总是会影响绩效。“在构建人工智能系统的任何部分,都有很多人的成分。”

回到顶部

建立平衡

处理有偏见数据的一种方法是包含代表性不足的例子的重复副本,但Russakovsky表示,这种类型的“过采样”不是很有效。她说,更好的方法是“不只是从训练数据来自的相同分布中取样,而是对该分布进行操作。”一种方法是用合成数据增强训练数据,以补偿表示不足的属性。

作为一个无可争议的例子,Russakovsky描述了一种训练系统,可以在通常同时出现两种特征的图像中识别戴墨镜或帽子的人。为了帮助系统区分面部特征,设计师可以添加只戴墨镜或帽子的人脸合成图像。同样,研究人员可以使用三维模型生成从不同角度观看的训练图像。

Mitchell同意,合成数据可以“在一定程度上”增强数据,例如“长尾”数据集很少有极端属性的例子。她说,通过交换同义词,这项技术在文本处理中很容易实现,但“在图像方面,合成数据还没有完全实现。”

然而,米切尔指出,对于组装大型数据集来说,“合成数据没有意义,因为它会太有偏见,太模板化,或者没有你想要的真实世界的变化。”同样,Madry担心“使用合成数据来治疗偏见是一个先有鸡还是先有蛋的问题。机器学习的整个前提是从数据中推断出世界的模型。”“如果你知道你的世界模型,你为什么要开始做机器学习?”


“机器学习的整个前提是从数据中推断出世界的模型。如果你知道你的世界模型,你为什么要开始做机器学习?”


合成数据在机器学习最热门的领域之一:生成对抗网络(GANs)中也扮演着核心角色。这些系统让神经网络相互对抗,一个产生数据,另一个对数据作出响应。Madry说,“GANs在一定程度上摆脱了与合成数据相关的二元性”,因为生成网络最终使用的是它没有内置的原理。事实上,Madry在麻省理工学院的同事Antonio Torralba已经探索了使用GANs来提高AI系统的公平性和可解释性。

回到顶部

机教育学

尽管有这样的努力来管理它,“在一天结束的时候,你的数据将会有偏见,”Russakovsky说,这可能需要算法来补偿。“问题在于,机器学习模型非常擅长从数据中学习。一旦您开始添加额外的约束,您就覆盖了模型想要做的事情。”

“这是神经网络固有的问题,”Madry表示赞同。“如果你给他们一个特定的任务:最大化我在这个特定数据集上的准确性,他们就会找出实现这一目标的功能。问题是我们不知道他们使用什么功能。”此外,Madry说,在一个环境中有效的方法可能在另一个环境中无效。“ImageNet让你开发的那种信号和功能”——例如,在社交网络上区分朋友——“在医疗人工智能的背景下用处有限。”

从长远来看,开发人员需要考虑如何显示数据,以帮助系统以最佳方式组织信息,纽瓦克罗格斯大学(Rutgers University-Newark)数学和计算机科学教授帕特里克·沙夫托(Patrick Shafto)说。“你不能随机抽取信息。你选择它是为了帮助他们理解。”

在他的工作中,沙夫托借鉴了在语言和教育研究中众所周知的合作概念。例如,“老师”可能首先选择建立一个普遍原则的数据,然后再选择更微妙的例子。其他已建立的教学技术,如提出问题,也可能鼓励人工智能系统更好地泛化,就像它们对人类学生所做的那样。他说:“我们不希望我们的学习仅限于教我们的人所学的知识。”“在理想的世界里,它会超出这个范围。”

Shafto说,目前的机器学习是为了最小化训练数据上的错误而进行调整的,这让人想起饱受诟病的“应试教育”,这“不是一个好的目标”。“我们需要新的目标来概念化机器学习可以并且应该向前发展。”

*进一步的阅读

美国计算机学会公平、问责与透明会议(ACM FAccT),https://facctconference.org/index.html

Aleksander Madry实验室的博客Gradient Science,https://gradientscience.org/

哈钦森,B,斯玛特,A,等人,
面向机器学习数据集的问责:来自软件工程和基础设施的实践,FAccT ' 21,560 (2021),https://dl.acm.org/doi/abs/10.1145/3442188.3445918

A.王,Narayanan, A.和Olga Russakovsky, O.
修订:测量和减轻视觉数据集偏差的工具(2020),https://arxiv.org/abs/2004.07999

回到顶部

作者

梦露不是一位科技作家,住在美国麻萨诸塞州波士顿。


©2021 acm 0001-0782/21/12

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc.


没有找到条目

登录全面访问
忘记密码? »创建ACM Web帐号
文章内容:
Baidu
map