如果说有一个数据集实际上已经成为深度学习的代名词,那就是ImageNet。以至于数据集创建者经常把他们的产品标榜为“……的ImageNet”,从大块的软件源代码(如IBM的Project CodeNet),到音乐网(华盛顿大学的带标签音乐录音的集合),无所不包。
斯坦福大学创建ImageNet的团队的主要目标是扩大规模。研究人员认识到,当时的机器学习模型倾向于过度拟合相对较小的训练数据集,限制了它们很好地处理现实世界输入的能力。通过从亚马逊的土耳其机器人(Mechanical Turk)网站招募临时工的众包方式,这项工作提供了更大的数据集。在2009年计算机视觉和模式识别(CVPR)会议上发布时,ImageNet包含了300多万张分类和标记图像,并迅速扩展到近1500万张。
多伦多大学(University of Toronto)计算机科学教授杰弗里·欣顿(Geoffrey Hinton)领导的团队开发了基于深度神经网络(dnn)的AlexNet模型,大量的标记图像被证明是该模型成功的基础。该模型在2012年赢得了围绕ImageNet数据集子集建立的第三届年度竞赛,轻松超过了传统人工智能(AI)模型的结果。从那时起,越来越精确的dnn和大规模数据集的发展携手并进。
世界各地的团队已经收集并向学术界或更广泛的公众发布了数千个旨在开发和评估AI模型的数据集。例如,加州大学欧文分校(University of California at Irvine)的机器学习知识库(Machine Learning Repository)拥有600多个不同的数据集,从鲍鱼描述到葡萄酒质量不等。谷歌的数据集搜索索引了大约2500万个开放数据集,这些数据集是为一般科学用途开发的,而不仅仅是机器学习。然而,公开发布的数据集中很少能得到广泛使用。
加州大学洛杉矶分校的研究生伯纳德·科赫(Bernard Koch)与谷歌的高级研究科学家艾米丽·丹顿(Emily Denton)和另外两名来自加州大学的研究人员合作;该团队在去年的神经信息处理会议(NeurIPS)上发表的工作中发现了一个由很少使用的数据源组成的长尾,而这些数据源是由非常小的一组非常流行的数据集组成的。为了弄清楚某些数据集在多大程度上占主导地位,他们分析了提交给“论文与代码”网站(Papers With Code)的五年来的论文,该网站整理了有关机器学习的学术论文及其源数据和软件。仅包括ImageNet在内的8个数据集,每个都在收集的论文中出现超过500次。大多数数据集被引用的论文不到10篇。
科赫说,对最受欢迎的数据集的大部分关注都围绕着比赛,这促成了机器学习的快速发展。“你让每个人都很容易理解我们在一个问题上取得了多大的进展。”科赫说。
研究小组发布的数据集与竞赛相一致,希望这种配对将导致对他们的领域的更多关注。一个例子是开放催化剂项目(OCP),这是卡内基梅隆大学(Carnegie Mellon University)和Facebook人工智能研究中心(Facebook AI Research)的联合努力,试图使用机器学习来加快识别可作为化学催化剂的材料的过程。模拟它们的行为可能需要几天的时间,甚至使用从量子力学公式推导出来的近似。人工智能模型已经被证明要快得多,但还需要努力提高它们的准确性。
通过对各种元素和合金的模拟结果,OCP团队构建了一个数据集,用于支持在NeurIPS 2021年首次亮相的竞赛。微软亚洲赢得了这一轮,它的模型借鉴了在NLP研究中使用的变形金刚技术,而不是该领域AI模型最受欢迎的图形神经网络(gnn)方法。
“我现在对这一领域如此兴奋的原因之一,恰恰是机器学习模型的改进是必要的,”CMU化学工程教授扎卡里•乌利西(Zachary Ulissi)表示。他认为竞赛形式可以帮助推动这种创新。“我真的希望在新型模型上看到更多的发展,甚至可能在gnn和变压器之外,并将已知的物理学纳入这些模型。”
真实世界的性能是OCP目标的核心,但是当基准测试本身开始主导研究目标时,问题很容易出现。在自然语言处理(NLP)中,由谷歌和OpenAI等工业集团建立的基于transformer的模型的巨大容量使人们对现有基准及其数据集(如RACE和SQuAD)的广泛使用产生了疑问。与ImageNet一样,人工智能模型在基准测试中往往比人类得分更高,但在更深入探究性能的实验中却失败了。对结果的调查发现,模型常常依赖于基准测试本身的意外提示。
类似的问题出现在ImageNet和其他数据集中,很明显,模型可以更多地依赖对象分组提供的线索,而不是目标对象本身。为了降低成本,视觉数据集中的图像通常来自照片分享网站,如Flickr,一些类别将不可避免地呈现不佳。弗吉尼亚大学(University of Virginia)的赵杰宇(Jieyu Zhao)及其同事在2017年NLP经验方法会议上发表的研究表明,在两个常见数据集中,女性烹饪的流行率不断上升,使得一个未经修正的模型更有可能将女性与该任务联系在一起,而不是男性。普林斯顿大学博士生Angelina Wang和她的导师、计算机科学助理教授Olga Russakovsky在2021年国际机器学习会议上发表的一篇论文中展示了模型是如何执行这种“定向偏差放大”的。
研究小组发布的数据集与竞赛相一致,希望这种配对将导致对他们的领域的更多关注。
自动驾驶汽车和其他机器人的开发者面临着一个相关的问题。他们可以使用的大部分现有的真实世界的镜头都是平淡无奇的,对于训练系统识别潜在问题的作用很小。为了训练他们的系统避免事故,他们需要更多不寻常的事件,比如有人撞到路上,或者现场其他人危险驾驶。社区转向的解决方案是模拟:创造更广泛的场景范围,即使是数百万英里的记录驾驶也不可能。对于可能取代ImageNet的图像识别数据集,生成对抗网络(GANs)提供了一种创建合成人物和场景的方法,提供了更平衡的训练和评估数据集。然而,在当今技术的现状下,这是有局限性的;虽然GANs今天可以生成令人信服的人脸,但创建更复杂的场景仍然具有挑战性。
随着人工智能模型和数据集从纯粹的研究工具转变为生产应用,其中一些现在被用于监视和警务,由有偏见的数据引起的伦理问题和问题变得更加紧迫。经过调查金融时报》2019年,微软撤回了其MS Celeb数据集,该数据集最初是为了支持2017年计算机视觉国际会议(ICCV)上的一场面部识别比赛而创建的。该数据集包含10万人的多张图片,其中许多是从公开的在线资源中提取的。《纽约时报》的调查发现,他们联系的对象没有允许他们的图片被使用。
由于对数据集中使用人物照片的担忧,斯坦福大学的研究小组面临着停止使用ImageNet的可能性。作为ImageNet团队的一员,Russakovsky说,对于如此广泛使用的数据集,这在实践中被证明几乎是不可能的。例如,在2019年ICCV的一个研讨会上,在微软宣布退出的近六个月后,使用了MS Celeb的下采样版本。
Russakovsky说ImageNet小组决定“采取一些小措施来减轻一些担忧”。这得益于ImageNet更关注于物体识别,而不是像MS Celeb那样依赖于个人识别。其中一个改变是通过模糊人们的脸来提高图像背景中的人的隐私,同时确保模特仍然能够准确预测“这是一张理发椅、哈士奇犬还是啤酒瓶的照片。”
缓和社区来源中潜在有害数据影响的一种方法是限制它们的使用方式,通过取消公司和政府在生产模型中使用数据集的合法权利,将它们的影响限制在纯研究领域。许多研究数据集伦理问题的研究人员还关注了大型数据集在研究中发挥重要作用的其他科学领域,看看哪些好的实践最理想地应该复制到机器学习中。
许多研究人员呼吁在机器学习数据集的创建和使用方面增加多样性。然而,开发和维护收藏的高成本,特别是如果需要对众包进行更大的监督,以减少有偏见的数据的引入,可能会导致努力进一步集中在资金最雄厚的机构。对以数据为中心的人工智能的越来越多的关注可能会平衡更高质量的标记和选择的成本,这种AI的重点更多地是数据集的质量,而不是它们的原始大小。
缓和社区来源中潜在有害数据影响的一种方法是限制它们的使用方式,并将其影响限制在纯研究中。
以数据为中心的AI社区的工作通常更专注于调整数据集以适应手头的任务,这反过来可能会减少机器学习社区专注于少量主流数据集的趋势,而是利用高度定制的标签数据与更好的指标相一致,而不是试图利用ImageNet的任何东西。
进一步的阅读
丹顿,E州,汉娜,R州,阿米罗内塞,斯玛特,A州,妮可,H州。
机器学习数据集的谱系:ImageNet的关键历史大数据与社会2021年7月- 12月1日- 14日
王(A.)和罗萨科夫斯基(O.)
定向偏差放大38人会议记录th机器学习国际会议, PMLR 139, 2021。
科赫,B,丹顿,E,汉娜,A,福斯特,j
减少、重用和回收:机器学习研究中数据集的生命35届会议记录th神经信息处理系统会议(NeurIPS 2021)
Motamedi, M., Sakharnykh, N.,和Kaldewey, T.。
一种用较少数据训练深度神经网络的以数据为中心的方法arXiv预印本- arXiv:2110.03613(2021)。
论文与代码:机器学习的最新进展https://paperswithcode.com/
©2022 0001 - 0782/22/9 ACM
允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。
数字图书馆是由计算机协会出版的。版权所有©2022 ACM, Inc.
没有发现记录