机器学习被出现为有价值的工具,用于发现可能逃脱人类的模式和趋势。该技术可以根据从个人偏好到面部识别的所有内容构建精心构建的模型,广泛用于了解行为,现场模式和趋势,并提出明智的预测。
然而,由于所有收益,也有很多痛苦。与机器学习相关的一个主要问题是,一旦存在算法或模型,删除单个记录或大量数据就非常困难。在大多数情况下,有必要重新训练整个模型 - 有时没有保证该模型不会继续以某种方式纳入可疑数据,David R. Cheriton计算机科学学院的助理教授Gautam Kamath说。加拿大滑铁卢大学。
有问题的数据可能来自系统日志,图像,健康记录,社交媒体网站,客户关系管理(CRM)系统,遗留数据库和无数其他地方。作为被遗忘的权利在欧盟的一般数据隐私法规(GDPR)和《加州消费者隐私法》(CCPA)的推动下,出现了授权,组织发现自己应对潜在的雷区,包括重大合规性惩罚。
毫不奇怪,完全是重新培训模型是一个昂贵且耗时的过程,该过程可能会或可能不会解决使敏感数据消失或完全无法追踪的根本问题。此外,经常无法证明重新训练模型已得到充分纠正,并且它是完全准确和有效的。
输入机器学习。使用专业技术(包括将数据库切成较小的块和适应算法)在机器学习模型中诱导选择性的“失忆症”。该领域才开始形成。宾夕法尼亚大学计算机和信息科学教授亚伦·罗斯(Aaron Roth)说:“目的是找到一种即时重建模型的方法,而不是每次数据发生变化时都必须建立一个全新的模型。”
是什么让机器学习如此吸引人的是它通过多数数据点和现场复杂关系切片的能力,这些关系经常超出人类认知。然而,一旦模型存在,改变或解构它就可以证明令人生畏,如果不是不可能的,因为通常没有办法知道特定数据点在模型内驻留的位置,或者它如何直接影响模型。
“在许多情况下,特别是当一个人或情况是一个异常值时,该模型可能会记住一条特定的数据,因为它没有足够的数据示例,以免否则进行预测,”助理教授尼古拉斯波特说在电气计算机工程系和多伦多大学计算机科学系。
因为没有办法应用选择性艾尼斯,每次需要删除数据元素时,数据科学家通常必须从头开始重新培训和重建模型。毫不奇怪,过程可以是长的,复杂的,并且可能昂贵 - 每次出现错误时都可能重复它被遗忘的权利请求到达。“今天,只需删除单个数据就没有简单而直接的方式,但是留下了完整的算法,”Papernot说。
此外,当今的数据隐私工具不能解决潜在的问题。例如,人工智能(AI)联合学习列车跨多个边缘设备或持有本地数据样本的服务器。这可以防止敏感的数据在数据库中缠绕,但不能采取任何措施将其删除。数据令牌化将敏感的数据元素替换为没有值但会产生相同问题的元素。此外,数据匿名工具通常会剥离培训模型所需的元素,或者引入可能扭曲训练过程的噪声。正如罗斯(Roth)所说,“隐私技术和数据删除不一定是到达同一位置。”
罗斯说,替换隐私,替代元素和扣留关键数据,也不足以解决未经学习的问题。它可以在单个案例中提供保证或某人请求某人从数据库中删除的案例,即使没有任何再培训。但是,作为越来越多的删除请求序列到达,框架的无线学习模型很快就会发布。“慢慢地,肯定的是,随着更多人要求删除他们的数据,甚至[包含隐私保护的模型]迅速开始看起来与培训导致的东西不同,”他说。
在使用匿名和差异隐私技术的模型中,无法验证特定的数据删除不仅仅是理论上的问题,并且会产生严重的后果。Kamath说,安全研究人员反复证明了从所谓的广义算法和模型中提取敏感数据的能力。一个备受瞩目的例子发生在2020年,当时一群研究人员发现,可以将大型语言模型GPT-2操纵为重现其培训数据的部分,包括个人身份信息和受版权保护的文本。一种
在不断变化的态度,社会价值和隐私定律中,人们越来越认识到需要更先进的机器学习方法。然而,研究人员继续为一些关键障碍而挣扎,包括了解每个数据点如何影响机器学习模型以及随机性(也称为随机性)如何影响空间。在某些情况下,数据输入的相对较小的变化会产生明显不同的结果,或提出有关机器学习模型的基本有效性的问题。
研究人员继续与一些关键障碍斗争,包括了解每个数据点如何影响机器学习模型。
在2019年出现了一项奖金的方法。多伦多和威斯康星州大学的Pupernot和一群研究人员介绍了将机器学习数据分成多个谨慎组件的想法。通过建立众多的数据块 - 将它们视为迷你数据库,这些数据库有助于较大的数据库 - 只有在删除的特定组件上就可以进行再检讨,然后将其插回完整数据集。这将再次产生全功能机器学习模型。
该小组称为方法分片,隔离,切片和汇总(SISA)。它认为框架可以用对现有机器学习管道的最小变化一起使用。“首先,我们将训练数据划分为多个不相交的碎片,使得培训点仅包含在一个碎片中;分片分区数据,”作者指出。“那么,我们在这些碎片中隔离地培训模型,这限制了点对截图培训的模型的影响。”结合碎片后,可以成功删除数据元素。“当请求找不到训练点到来时,我们需要只寄出受影响的模型。由于碎片小于整个训练集,因此这降低了实现无线学习的再培训时间,”他们说。
研究小组在超过一百万图像上测试了SISA框架,发现该技术的工作。典型的速度改进范围为2.45倍至4.63倍,用于无参考任务。更多,即使在训练集请求更改时,该方法也减少了培训。它引入了更实用的方法来处理问题,“Papernot解释说。最重要的是,“您可以向用户展示未经读数的模型是您在第一个地方获得的东西,您从未了解用户数据则可以获得。”本集团还提出模型检查点,其中学习者建立并存储数十个或甚至数百个谨慎型号,其中某些数据点被排除在外。
作者承认,尽管这个概念很有希望,但它具有局限性。例如,通过减少每个分片的数据量,可能会对机器学习产生影响,并且可能会产生较低质量的结果。此外,该技术并不总是按照计费。
当哈佛大学的一群研究人员,哈佛大学和宾夕法尼亚大学检查了这种方法时,他们发现某些条件下的某些数据清除请求序列导致框架的删除保证失败。这是因为SISA研究人员假定删除请求与实际的机器学习模型无关。“例如,如果人们删除他们的数据,这将不是这种情况,以响应模型揭示他们的数据,”罗斯说。“当发生这种情况时,我们有一个具体的演示,以至于以前工作失败的删除保证。”
罗斯是这支研究团队的成员,虽然该方法并不总是按照(他的团队最终发现删除问题)的工作,但它是机器无学习技术的不断增长的阿森纳之一。
与此同时,斯坦福,哈佛大学和宾夕法尼亚州研究人员还探索了开发与机器学习算法直接相关的数据删除算法的想法 - 以完全设计的特定特性,以维持数据完整性和整体模型的有效性。B.
目前,机器无线学习保留在新生阶段。然而,随着研究人员和数据科学家介绍了如何删除数据影响的整体模型,实际世界工具应该开始出现,因此应该开始出现。目标是生产机器学习框架和算法,允许数据科学家删除记录或单独的数据点并使用完全无法解决相关数据的有效模型结束。
随着研究人员和数据科学家介绍如何删除数据影响模型,实际世界工具来管理任务将开始出现,Papernot表示。
Papernot说:“现在,我们只是对问题做出反应并采取事后的观点。…我们想达到我们有信心的地步,模型是准确的,而没有插入数据。”
进一步阅读
Bourtoule,L.,Chandrasekaran,V.,Choquette Choo,C.a.,Jia,H.,Travers,A.,Zhang,B.,Lie,D.和Papernot,N。
机器无光,42n2020年12月,IEEE安全与隐私研讨会。https://arxiv.org/pdf/1912.03817.pdf.
Carlini,N.,Tramèr,F.,Wallace,E.,Jagielski,M.,Herbert-Voss,A.,Lee,K.,Roberts,A,Brown,T.Oprea,A。和Raffel,C。
从2021年6月15日从大语言模型中提取培训数据。https://arxiv.org/pdf/2012.07805.pdf.
Sekhari,A.,Acharya,J.,Kamath,G.和Suresh,A.T.
请记住您想忘记的内容:2021年7月22日,机器学习算法。https://arxiv.org/pdf/2103.03279.pdf.
Gupta,V.,Jung,C.,Neel,S.,Roth,A.,Sharifi-Malvajerdi,S。和C. Waites
自适应机器学习,2021年6月9日。https://arxiv.org/pdf/2106.04378.pdf.
Prabhu,V.U.和Birhane,A。
大型数据集:电脑愿景的Pyrrhic Win?7月27日,2020年。https://arxiv.org/pdf/2006.16923.pdf.
©2022 ACM 0001-0782/22/4
如果没有收取副本或分发盈利或商业优势,则授予批准为个人或课堂使用的部分或课堂使用的数字或课堂工作的数字或所有这项工作的副本或全部课堂使用的允许批准。必须尊重由其他人拥有的本工作组件的版权必须尊重ACM。允许用信用抽象。要复制否则,要重新发布,请在服务器上发布,或将其重新分配给列表,要求事先具体许可和/或费用。请求权限发布permissions@acm.org.或传真(212)869-0481。
数字图书馆由Computing Machinery协会发布。版权所有©2022 ACM,Inc。
没有发现任何条目