acm-header
登录

ACM通信

新闻

形式化公平


天平,插图

信贷:inimalGraphic

随着机器学习进入我们生活越来越多的领域,对算法偏见的担忧也在升级。机器学习模型,今天促进了从雇佣和借贷到医疗诊断和刑事判决的一切决策,看起来可能是数据驱动的和公正的,至少对naïve的用户是这样的——但是典型的不透明模型只与它们所训练的数据一样好,只与嵌入算法的价值判断一样道德。

新兴的算法公平领域是更广泛的负责任计算领域的一部分,旨在纠正这种情况。几年来,与哲学家、法律学者和其他领域的专家一起,计算机科学家一直在解决这个问题。正如斯坦福大学计算机科学教授Omer Reingold喜欢说的那样:“我们是问题的一部分,我们也应该是解决方案的一部分。”

从去年开始,Reingold就成为了一群理论计算机科学家的一员,他们通过由Simons基金会资助的Simons合作研究算法公平理论。该合作项目由13名主要研究人员组成,旨在创建一种讨论公平的语言——“一种可以转化为实际算法的严格语言,”领导该合作项目的Reingold说。

回到顶部

公平的多种含义

这种语言的基本构建模块,就像密码学或隐私的数学语言一样,是形式化定义。Reingold解释说:“当我们用加密技术将信息从一个人发送给另一个人时,我们希望它保持秘密——但‘秘密’是英语。”“密码学发现,这可以翻译成很多很多的正式定义,意味着不同的东西。”

尽管算法公平理论仍处于初级阶段,问题比答案多,但有一件事已经非常清楚:就像密码学中的保密概念一样,英语单词“公平”将需要大量的定义。没有任何一个单一的定义能够概括不同的人对这个复杂而崇高的概念的大部分含义。事实上,合作小组成员之一、宾夕法尼亚大学(University of Pennsylvania)计算机科学教授亚伦·罗斯(Aaron Roth)对在讨论算法中狭义的差异度量时使用“公平”表达了不安。“公平”是一个广义上指现实世界中结果分布的术语。“我认为,随着这个领域的成熟,我们将开始少谈‘公平’这个词——一个不清楚它是什么意思的词——我们将开始更精确地讨论各种各样的技术差异,我们可以讨论消除这些技术差异的方法。”

公平之所以成为一个如此难以捉摸的概念,部分原因在于它与环境有关:在一种环境中进行歧视,而在另一种环境中不进行歧视是合理的。正如合作成员、哈佛大学计算机科学戈登·麦凯教授辛西娅·德沃(Cynthia Dwork)曾经说过的那样,“在某种程度上,在美发产品广告上的歧视完全有道理,而在金融产品广告上的歧视则完全是非法的。”

此外,公平通常只在相对意义上有意义。另一名合作成员、以色列耶路撒冷希伯来大学计算机科学教授、该大学互联网与社会项目负责人卡特里娜·利格特(Katrina Ligett)说:“对特定个人或群体的对待有时只能被判断为与对其他个人或群体的对待相比不公平。”在这些相对公平的概念中,Ligett用博弈论的术语解释道:“玩家A的效用不仅取决于玩家A的待遇,也取决于玩家B的待遇;而B的效用则取决于玩家A的待遇。”这使得公平不同于隐私,隐私可以从绝对意义上严格定义。正如Ligett所说:“在不需要了解B的数据如何处理的情况下,谈论A获得了多少隐私是很明确的。”

清晰的定义并不是算法公平理论的全部,但它们绝对是必不可少的。首先,如果没有一致的定义,软件设计人员可以对他们的系统做出模糊的、毫无根据的声明。说一个系统是安全的,或者说是私有的,或者说是公平的,这意味着什么?Reingold说:“如果没有一个具体的定义,我们会发现它的意义并不大。”一旦你有了一组定义,你就可以证明一个特定的算法是否满足一个特定的定义。此外,您可以尝试将每个正式定义翻译成简单的英语,以便系统用户和政策制定者能够理解和讨论它。这些步骤可能有它们自己的挑战,“但我的感觉是,”Reingold说,“如果你没有定义,你就什么都没有。”


就像密码学中的保密概念一样,英语中的“公平”一词也需要大量的定义。


要使这些定义在现实世界中发挥作用,而不仅仅是在数学上有吸引力,它们必须抓住伦理、哲学和法律等领域专家所设想的公平的重要方面。为此,利格特一直在与法律学者合作。她指出,这些对话并不容易进行。“典型的法律学者对公平没有自己的数学定义,我们可以把它与计算机科学家的概念进行比较。”

一个算法公平的理论也需要一个分类,“不仅仅是一个巨大的不相关的定义集合,”Roth说。这个领域已经有了这样一个分类的开端,当公平研究人员谈到定义的“家族”时。一个主要的家族是组织公平其中算法的统计度量,如假阳性率或假负率,在总体上是相等的。群体公平的一个简单例子是,大学对所有种族的申请者的录取率都是一样的。另一个家庭,个人公平该法案旨在确保公平保证适用于个人,而不是群体,比如当招生过程对两个相似的个人一视同仁时。认识到每一种公平方法的优缺点后,包括Reingold和Roth在内的几位研究人员提出了第三类概念,超群的公平在美国,这种做法试图达到两全其美的效果。

分类法有助于建议哪种类型的定义可能最适合特定的应用程序,Roth解释道,并举了一个信用卡贷款的例子。如果使用机器学习系统来决定是否提高借款人的信用限额,而不仅仅是帮助下游决策者,那么关注旨在防止损害(比如拒绝信誉良好的借款人)不合理地落到一个人而不是另一个人身上的公平定义可能是明智的。

回到顶部

可能性的极限

有了定义,计算机科学家就可以确定在给定的定义下什么是可能的。了解这一点对于政策制定者根据政策制定者的价值观做出权衡至关重要,比如一方面对群体或个人的公平,另一方面对整个人口的预测准确性之间的权衡。

埃玛·皮尔森是康奈尔理工学院的雅各布斯技术-康奈尔学院和以色列的Technion学院的计算机科学教授,她研究了算法公平性的理论和应用方面,用程式化的例子说明了公平性和准确性的权衡。医疗保健提供者可能面临两种算法的选择:一种算法对黑人和白人患者的准确率都是40%(公平的原因是两组患者的准确率没有差异),另一种算法对白人患者的准确率是80%,对黑人患者的准确率是60%。Pierson说,选择哪种算法需要进行价值判断,“但很明显,如果你将公平性定义为不同组之间准确性的差异,其中一个在公平性方面更好,另一个在整体准确性方面更好。”有些算法比其他算法更接近帕累托边界——也就是说,在这两个目标上都做得更好——但没有算法能逃脱边界。

算法的选择还可能导致对公平的不同定义之间的权衡,这一点在计算机科学家深入研究与COMPAS算法相关的数据集后变得清晰起来。法院使用COMPAS算法来决定在审判前释放哪些被告。在2016年发表的一项新闻调查之后,COMPAS吸引了科学家的兴趣ProPublica通过对数据的深入研究得出结论,COMPAS对黑人被告有偏见;ProPublica的证据表明,在分配风险评分时,COMPAS对黑人的假阳性率比白人高得多,这意味着对于那些没有再犯的被告,黑人比白人更容易被归类为可能的再犯。然而,奇怪的是,研究同样数据的计算机科学家后来发现,COMPAS对公平的定义是不同的:对两种人群的校准是相同的,这意味着任何给定的COMPAS风险评分对黑人被告和白人被告的意义是一样的——例如,7分转换为相同的被告再犯罪的比例,而不管他们的种族。此外,科学家们证明,在大多数现实条件下,不可能同时满足这两种公平定义。

Pierson指出,重要的是要记住,这种不可能的结果并不是关于计算机算法的陈述。Pierson并不是Simons合作项目的一部分。某些预期结果的组合是无法通过任何人谁必须做决定,不管是人还是机器。“我们应该小心:我们批评的哪些东西特别适用于算法,哪些是算法特有的坏,而不是所有的决策者?”Pierson说,与其将算法与不可能实现的理想进行比较,我们必须考虑,如果由人类来做出决策,这些决策会有多好。由于人类是出了名的有缺陷的决策者,算法通常至少可以做得同样好。

当然,他们能够也应该做得更好。设计算法的人可以比现在更清楚地意识到公平的考虑——定义公平的含义是朝着这个方向迈出的关键一步。利格特说,算法公平是一个比其他计算机科学家所研究的更混乱、更分散的理论领域。“但这种混乱,”她补充说,“对那些喜欢使用数学工具试图给事物施加秩序的人来说,是相当有吸引力的。”

*进一步的阅读

乔德切娃和罗斯。
机器学习中公平前沿的快照,通信,卷63,第5期,2020年5月,第82-89页https://doi.org/10.1145/3376898

德work, C.,哈特,M., Pitassi, T.,林格尔德,O.和泽梅尔,R.。
通过意识实现公平,ITCS 12:会议记录3理查德·道金斯理论计算机科学创新会议“,, 2012年1月,214-226页https://doi.org/10.1145/2090236.2090255

科贝特-戴维斯,S.,皮尔森,E.,费勒,A.,高尔,S.和胡克,A.。
算法决策和公平成本,KDD '17: 23号会议记录理查德·道金斯ACM SIGKDD知识发现和数据挖掘国际会议, 2017年8月,797-806页https://doi.org/10.1145/3097983.3098095

Kleinberg, J., Mullainathan, S.和Raghavan, M.。
风险评分公平确定中的内在权衡arXiv:1609.05807 [c]。2016年11月17日,星期四https://arxiv.org/abs/1609.05807v2

Chouldechova,。
具有不同影响的公平预测:累犯预测工具的偏差研究,载于2017年2月28日,1703.00056https://arxiv.org/pdf/1610.07524.pdf

卡恩斯,尼尔,罗斯,A
防止公平不公正:子群体公平的审计与学习35届会议记录th机器学习国际会议, PMLR 80:2564-2572, 2018https://proceedings.mlr.press/v80/kearns18a.html

Hébert-Johnson, U., Kim, M., Reingold, O.,和Rothblum, G.N.
多校准:(计算可识别)质量的校准,35届会议记录th机器学习国际会议, PMLR 80:1939-1948, 2018https://proceedings.mlr.press/v80/hebert-johnson18a.html

回到顶部

作者

总部位于旧金山湾区,玛丽娜Krakovsky是《《中间人经济:经纪人、代理人、经销商和日常媒人如何创造价值和利润》(Palgrave Macmillan)。


©2022 acm 0001-0782/22/8

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2022 ACM, Inc.


没有找到条目

登录全面访问
忘记密码? »创建ACM Web帐号
文章内容:
Baidu
map