机器学习领域的巨大成功导致了人工智能(AI)应用的爆炸式增长,并提高了人们对具有人类智能水平的自主系统的期望。然而,这些期望遇到了跨越许多应用领域的根本障碍。其中一个障碍是适应性或健壮性。机器学习研究人员指出,目前的系统缺乏识别或应对新环境的能力,这些新环境还没有经过专门的编程或训练。对“迁移学习”、“领域适应”和“终身学习”的大量理论和实验努力4都反映了这个障碍。
另一个障碍是“可解释性”,或者“机器学习模型仍然主要是黑盒”26无法解释其预测或建议背后的原因,从而损害用户的信任,阻碍诊断和修复;看到迫降8和马库斯。11第三个障碍是缺乏对因果关系的理解。这是人类认知的标志10,23在我看来,这是实现人类智力水平的必要(尽管不是充分)因素。这个成分应该允许计算机系统编排一个简洁和模块化的环境表示,询问该表示,通过想象行为扭曲它,并最终回答“如果?”之类的问题。例如,介入性问题:“如果我做到了会怎么样?”以及回顾性或解释性问题:“如果我采取了不同的行动会怎么样?”或“如果我的航班没有晚点会怎么样?”这些问题无法明确表述,更不用说像今天大多数学习机那样,以纯统计模式运行的系统来回答了。在本文中,我将说明使用因果建模工具,特别是因果图及其相关逻辑,可以克服所有这三个障碍。这些工具发展的核心是图形和结构模型的进步,这些模型使反事实在计算上易于管理,从而使因果推理成为支持强人工智能的可行组件。
在下一节中,我将描述一个三级层次结构,它限制和支配因果推理中的推理。最后一节总结了如何通过因果推断的现代工具规避传统障碍。特别地,我提出了七个超出“联想”学习系统所能达到的任务,它们已经(并且可以)通过因果建模工具完成。
通过因果模型理论揭示的一个有用的见解是,根据每个类别能够回答的问题类型对因果信息进行分类。这种分类形成了一个三级层次结构,即在层次上提出问题我(我= 1,2,3)可以回答,只有当信息来自水平j(j>我)。
图1概述了三个层次结构,以及每个层次可以回答的特征问题。我称之为一级。协会,2。3.干预;反事实,以配合他们的用法。我将第一级称为关联,因为它调用由裸数据定义的纯统计关系。一个例如,观察一个买牙膏的顾客会让这个顾客更有可能也会买牙线;使用标准条件概率和条件期望,可以从观测数据直接推断出这种关联。15这一层的问题,因为不需要因果信息,所以被放在层次结构的最底层。回答这些问题是当前机器学习方法的标志。4第二个层次,干预,排名高于联想,因为它不仅涉及看到是什么,还涉及改变我们所看到的。在这个层面上的一个典型问题是:如果我们将价格提高一倍会发生什么?这样的问题不能仅从销售数据来回答,因为它涉及到消费者对新定价的反应的选择的变化。这些选择可能与以前提价情况下的选择有很大不同,除非我们精确地复制价格达到当前价值两倍时存在的市场条件。最后,最高层调用了反事实(counterfacals),这是一种可以追溯到哲学家大卫·休谟(David Hume)和约翰·斯图亚特·密尔(John Stuart Mill)的推理模式,在过去20年里被赋予了计算机友好的语义。1,18反事实类型的一个典型问题是:“如果我采取不同的行动会怎样?”因此需要回顾性推理。
图1。因果层次。只有在i级或更高级别的信息可用时,才能回答第1级的问题。
我把反事实放在层次结构的顶端,因为它们包含了介入性和联想性问题。如果我们有一个模型可以回答反事实的问题,我们也可以回答有关干预和观察的问题。例如,介入性问题:如果我们将价格提高一倍会发生什么?可以通过提出一个反事实的问题来回答:如果价格是当前价值的两倍,会发生什么?同样,一旦我们回答了介入性问题,就可以回答联想性问题;我们简单地忽略了行动部分,让观察取代了行动。在相反的方向上平移是无效的。介入性问题不能仅从观察信息或统计数据中得到答案。与从对照实验中获得的信息一样,从纯粹的介入信息中无法回答涉及回顾的反事实问题;我们不能在接受药物治疗的人类受试者身上重新进行实验,看看如果他们没有接受药物治疗,他们会有什么表现。 The hierarchy is therefore directional, with the top level being the most powerful one.
反事实是科学思维,以及法律和道德推理的基石。例如,在民事法庭上,如果不是被告的行为,伤害很可能不会发生,被告被认为对伤害负责。“要不是”的计算意义要求将现实世界与被告的行为没有发生的另一个世界进行比较。
层次结构中的每一层都有一个语法签名,用来描述进入该层的句子。例如,关联层的特征是条件概率句子,如P(y|x) =p,表示:事件的概率Y=y,鉴于我们观察到的事件X=x等于p.在大型系统中,这样的证据句可以通过贝叶斯网络或任何数量的机器学习技术有效地计算出来。
在干预层,我们处理这种类型的句子P(y|做(x),z),表示“事件的概率”Y=y,假设我们干预并设置的值X来x然后观察事件Z=z.这样的表达式可以通过随机试验或使用因果贝叶斯网络进行分析来估计。18孩子们通过对环境的有趣操纵(通常是在一个确定性的游乐场)来学习干预的效果,人工智能规划者通过练习可接受的行动集来获得干预知识。不管数据有多大,仅仅从被动观察中无法推断出介入表达式。
最后,在反事实层面,我们处理类型的表达P(yx|x ' y '),代表“该事件的概率Y=y会被观察到X被x,假设我们实际观察到X是x和Y是y '例如,乔的工资是y考虑到他的实际工资是多少,他读完大学了吗y '而且他只上了两年大学。”只有当模型基于功能关系或结构关系时,才能计算出这样的句子。18
这种三级层次结构,以及它所包含的形式限制,解释了为什么仅基于关联的机器学习系统不能推理(新)行为、实验和因果解释。b
考虑以下五个问题:
这些问题的共同特点涉及因果关系。我们通过诸如“防止”、“原因”、“归因于”、“歧视”和“我应该……”等词语来识别它们。这样的词在日常语言中很常见,现代社会也不断要求人们回答这样的问题。然而,直到最近,科学还没有给我们任何方法去表达它们,更不用说回答它们了。不像几何学、力学、光学或概率的规则,因果的规则被否定了数学分析的好处。
为了理解这种否认的程度,读者可能会惊讶地发现,就在几十年前,科学家们还无法写出一个数学方程式来解释“泥浆不会导致降雨”这一显而易见的事实。即使在今天,也只有科学界的顶级人才能写出这样的方程式,并正式区分“泥致雨”和“雨致泥”。
这些障碍在过去30年里发生了巨大变化;例如,已经开发了一种用于管理因果关系的数学语言,同时还开发了一套工具,可以将因果关系分析变成数学游戏,就像求解代数方程或在高中几何中寻找证明一样。这些工具允许科学家正式地表达因果关系问题,以图表和代数形式编纂他们现有的知识,然后利用数据来估计答案。此外,当现有知识或可用数据的状态不足以回答他们的问题时,该理论会警告他们,然后建议额外的知识或数据来源,使问题可以回答。
这些工具的发展对所有数据密集型科学产生了变革性的影响,特别是社会科学和流行病学,在这些科学中,因果图已经成为第二语言。14,34在这些学科中,因果图帮助科学家从关联中提取因果关系,并解构困扰研究人员数十年的悖论。23,25
我把导致这种转变的数学框架称为“结构因果模型”(SCM),它由三个部分组成:图形模型、结构方程、反事实和介入逻辑。图形模型作为一种语言,用于表示代理对世界的了解。反事实帮助他们清楚地表达他们想知道的东西。而结构方程则将两者以坚实的语义联系在一起。
图2以推理引擎的形式说明了SCM的操作。该引擎接受三个输入:假设、查询和数据,并产生三个输出:estimand、Estimate和Fit索引。估价(E年代)是一个数学公式,它以假设为基础,提供了从任何假设数据回答查询的配方,只要数据可用。在接收到数据之后,引擎使用Estimand生成一个实际的Estimate (E年代),以及对该答案的置信度的统计估计,反映了数据集的有限大小,以及可能的测量错误或缺失的数据。最后,引擎生成一个“拟合指数”列表,用于衡量数据与模型传达的假设的兼容性。
图2。SCM“推理引擎”如何将数据与因果模型(或假设)结合起来,以产生对感兴趣的查询的答案。
为了举例说明这些操作,假设我们的Query表示的因果效应X(吸毒)上Y(恢复),写为问=P(Y|做(X))。让建模假设被编码(参见图3),Z第三个变量(比如性别)会影响两者吗X和Y.最后,让数据从联合分布中随机抽样P(X,Y,Z).估价(E年代)由引擎导出(自动使用工具2,在下一节中讨论)将是公式E年代=z P(Y|X,Z)P(Z),定义了估算的程序。它需要估计性别特定的条件分布P(Y|X,Z),以概率来衡量P(Z),然后取平均值。注意估价E年代的属性。P(X,Y,Z),如果正确估计,将为我们的查询提供正确的答案。答案本身,估计E年代,可以通过任何数量的技术来产生,这些技术可以从有限的样本中产生ES的一致估计P(X,Y,Z).例如,样本平均值(的Y)所有符合指定的情况X和Z条件是一个一致的估计。但是可以设计出更有效的估计技术来克服数据稀疏性。28这种从稀疏数据中估计统计关系的任务是深度学习技术的强项,也是它们经常被使用的地方。33
图3。描述关于三个变量的因果假设的图形模型;的任务是估计因果效应X在Y来自{的非实验数据X,Y,Z}。
最后,Fit Index为我们的例子图3将零
;也就是说,在检查了图的结构之后图3,引擎应该得出结论(使用工具1,在下一节中讨论),编码的假设缺乏可测试的含义。因此,结果估计的准确性必须完全依赖于箭头中编码的假设图3,因此从数据中既不能得到反驳,也不能得到证实。c
同样的过程也适用于更复杂的查询,比如反事实查询问=P(yx|x ' y ')。我们也可以允许一些数据来自采用这种形式的受控实验P(V|做(W)),以防W是被控制变量。Estimand的作用仍然是将Query转换为涉及可用数据的语法形式,然后指导估计技术的选择,以确保无偏见的估计。转换任务并不总是可行的,在这种情况下,Query被声明为“不可识别”,引擎应该以失败。
幸运的是,已经开发了有效和完整的算法来确定可识别性,并为各种反事实查询和各种数据类型生成estimmands。3.,30.,32
接下来,我将提供通过SCM框架完成的七个任务的鸟瞰图,以及每个任务中使用的工具,并讨论每个工具对自动推理艺术的独特贡献。
工具1。编码因果假设:透明度和可测性。一旦分析人员认真考虑透明度和可测试性的要求,以紧凑和可用的形式编码假设的任务就不是一件微不足道的事情。d透明度使分析人员能够辨别编码的假设是否合理(基于科学依据),或者是否有额外的假设。可测试性允许我们(无论是分析人员还是机器)确定编码的假设是否与可用数据兼容,如果不兼容,则确定需要修复的假设。
图形模型的进步使得紧凑编码成为可能。它们的透明性自然源于这样一个事实,即所有假设都以图形形式定性编码,反映了研究人员在该领域中感知因果关系的方式;不需要判断反事实或统计依赖关系,因为这些依赖关系可以从图的结构中读出。18可测试性通过称为d-在原因和可能性之间提供基本联系的分离。它告诉我们,对于模型中任何给定的路径模式,我们应该在数据中找到什么样的依赖模式。15
2工具。做-微积分和混杂的控制。长期以来被认为存在两个或两个以上变量的未观察到的原因的从数据中得出因果推论的主要障碍,已经通过一种称为“后门”的图形标准被去神秘化和“拆解”。特别是,选择一组适当的协变量来控制混淆的任务已经简化为一个简单的“路障”难题,可以通过一个简单的算法来管理。16
对于后门标准不成立的模型,有一个符号引擎可用,称为“做-微积分”,它在可行的情况下预测政策干预的效果,在无法根据特定假设确定预测时失败。3.,17,30.,32
工具3。反事实的算法化。反事实分析处理的是由一组不同的特征确定的特定个体的行为。比如,乔的工资是Y=y他去了X=x如果乔再上一年大学,他的薪水会是多少?
当代因果关系研究的最高成就之一是在图形表示中形式化了反事实推理,这正是研究人员用来编码科学知识的表示。每个结构方程模型决定了每个反事实句的“真值”。因此,算法可以确定句子的概率是否可从实验或观察研究中估计,或两者的组合。1,18,30.
在因果话语中特别有趣的是关于“结果的原因”的反事实问题,而不是“原因的结果”。例如,乔的游泳运动有多大可能是乔死亡的必要(或充分)原因。7,20.
工具4。调解分析及直接和间接影响评估。中介分析关注将变化从原因传递到结果的机制。识别这种中间机制对于产生解释至关重要,必须采用反事实分析来促进这种识别。反事实的逻辑及其图形表示已经产生了用于估计数据或实验的直接和间接影响的算法。19,27,34通过这些算法可计算的一个典型查询是:效果的多少百分比X在Y是由变量调节的Z?
5工具。适应性、外部效度和样本选择偏差。每个实验研究的有效性都受到实验和预期实施设置之间差异的挑战。在一个环境中训练的机器不能期望在环境条件变化时表现良好,除非这些变化是局部的和确定的。这一问题及其各种表现形式,已得到人工智能研究人员和企业的广泛认可(如“领域适应”、“迁移学习”、“终身学习”和“可解释人工智能”)。4是研究人员和资助机构在试图缓解健壮性的一般性问题时确定的一些子任务。不幸的是,健壮性问题,从最广泛的形式来看,需要一个环境的因果模型,并且不能在关联级别上得到适当的解决。仅凭关联无法确定导致这些变化的机制,22原因是观察到的关联的表面变化并不能唯一地确定导致变化的潜在机制。的做-前面讨论的微积分现在提供了一个完整的方法来克服由于环境变化造成的偏见。它既可以用于重新调整学习策略以规避环境变化,也可以用于控制非代表性样本和目标人群之间的差异。3.它还可以在强化学习的上下文中使用,以评估调用新动作的策略,而不是在训练中使用的策略。35
不像几何学、力学、光学或概率的规则,因果的规则被否定了数学分析的好处。
工具6。从丢失的数据中恢复。数据缺失的问题困扰着实验科学的每一个分支。受访者不会回答问卷上的每一个项目,天气条件恶化时传感器会失灵,患者经常因为未知的原因退出临床研究。关于这个问题的丰富文献是绑定在关联分析的无模型范式上的,因此,严重限制在“缺失”随机发生的情况下;也就是说,与模型中其他变量所取的值无关。6使用缺失过程的因果模型,我们现在可以形式化条件,在这些条件下,可以从不完整的数据中恢复因果关系和概率关系,并且只要条件满足,就可以产生对所需关系的一致估计。12,13
工具7。因果关系的发现。的d前面描述的-分离标准使机器能够检测和枚举给定因果模型的可测试含义。这就有可能通过温和的假设,推断出与数据兼容的模型集,并紧凑地表示这一集。已经开发了系统搜索,在某些情况下,可以显著地修剪兼容模型集,从而可以直接从该集估计因果查询。9,18,24,31
或者,Shimizu等人。29提出了一种基于功能分解的因果方向性发现方法。24在线性模型中XY对于非高斯噪声,P(y)是两个非高斯分布的卷积,形象地说,比“更高斯”P(x).“多高斯比”关系可以给出精确的数值测量,并用于推断某些箭头的方向。
田和珍珠32开发了另一种基于检测“冲击”或环境中自发的局部变化的因果发现方法,这些变化就像“自然的干预”,并揭示了这些冲击后果的因果方向性。
我认为因果推理是人类思维中不可或缺的组成部分,应该将其形式化和算法化,以实现人类水平的机器智能。我已经以三层层次结构的形式阐述了实现这一目标的一些障碍,并说明了对第2级和第3级的推断需要一个人的环境的因果模型。我已经描述了七个认知任务,它们需要来自这两个层次的推断工具,并演示了如何在SCM框架中完成它们。
对研究人员来说,重要的是要注意,用于完成这些任务的模型是结构性的(或概念性的),不需要对所涉及的分布的特定形式作出承诺。另一方面,所有推论的有效性关键取决于假定结构的准确性。如果真实的结构与假设的结构不同,而数据与两者吻合得同样好,则可能产生很大的误差,有时可以通过灵敏度分析来评估。
同样重要的是,他们要记住,无模型机器学习的理论局限性不适用于预测、诊断和识别任务,在这些任务中,干预和反事实的作用是次要的。
然而,绕过这些限制的模型辅助方法仍然可以移植到其他机器学习任务中,在这些任务中,不透明性、稳健性、可解释性和缺失数据的问题非常关键。此外,鉴于因果模型对社会和健康科学的变革性影响,14,25,34一旦机器学习技术受到现实的临时模型的指导,预计类似的变革将席卷整个机器学习技术是很自然的。我预计这种共生关系将产生用用户的母语进行因果交流的系统,并利用这种能力成为下一代人工智能的主导范式。
本研究部分由国防高级研究计划局[#W911NF-16-057]、国家科学基金会[#IIS-1302448, #IIS-1527490和#IIS-1704932]和海军研究办公室[#N00014-17-S-B001]资助。匿名审稿人的评论以及与加州大学洛杉矶分校(University of California, Los Angeles)的阿德南·达维奇(Adnan Darwiche)的对话使这篇文章受益匪浅。
数字请在独家报道中观看作者对这部作品的讨论通信视频。//www.eqigeno.com/videos/the-seven-tools-of-causal-inference
1.巴尔克,A.和珍珠,J.反事实查询的概率评估。在12个会议记录th全国人工智能会议西雅图,华盛顿州,7月31日- 8月4).麻省理工学院出版社,门洛帕克,CA, 1994,230237。
2.由替代实验的因果推断:z-可识别性。在28届会议记录th人工智能不确定性会议, N. de Freitas和K. Murphy, Eds。(卡特琳娜岛,CA, 1418年8月)。美国AUAI出版社,2012,113120。
3.因果推理与数据融合问题。美国国家科学院院刊, 27(2016), 73457352。
4.陈,z,刘,B。终身机器学习。摩根和克莱普尔出版社,圣拉斐尔,加利福尼亚州,2016年。
5.Darwiche,。人类水平的智力还是动物水平的能力?技术报告。加州大学洛杉矶分校计算机科学系,加州,2017;https://arxiv.org/pdf/1707.04327.pdf
6.格雷厄姆,J。缺失数据:分析与设计(社会和行为科学统计)。施普林格,2012年。
7.Halpern, J.H.和Pearl, J.原因和解释:结构模型方法:第一部分:原因。英国科学哲学杂志(2005), 843887。
8.人工智能研究人员声称,机器学习是炼金术。科学(2018年5月3日);https://www.sciencemag.org/news/2018/05/ai-researchers-allege-machine-learning-alchemy
9.张建军,张建军,张建军。马尔可夫等价下的因果识别。在34届会议记录th人工智能不确定性会议, A. Globerson和R. Silva, Eds。(蒙特利,加州,610年8月)。AUAI出版社,科瓦利斯,OR, 2018, 978987。
10.Lake, b.m., Salakhutdinov, R.和Tenenbaum, J.B.通过概率程序归纳的人类水平概念学习。科学350, 6266(2015年12月),13321338。
11.马库斯,G。深度学习:批判性评估。技术报告。纽约大学心理与神经科学系,纽约,2018;https://arxiv.org/pdf/1801.00631.pdf
12.莫汉,K.,珀尔,J.。处理缺失数据的图形模型。技术报告R-473。加州大学洛杉矶分校计算机科学系,加利福尼亚州,2018;即将到来的,美国统计协会杂志;http://ftp.cs.ucla.edu/pub/stat_ser/r473.pdf
13.莫汉,周文杰,田文杰。基于缺失数据推理的图形模型。在神经信息处理系统研究进展, C.J.C. Burges, L. Bottou, M. Welling, Z. Ghahramani和K.Q. Weinberger, Eds。Curran Associates, Inc.,红钩,纽约,2013,12771285;http://papers.nips.cc/paper/4899-graphical-models-for-inference-with-missing-data.pdf
14.摩根,S.L.和温希普,C。反事实和因果推断:社会研究的方法和原则(社会研究的分析方法),第二版。剑桥大学出版社,纽约,2015年。
15.珠儿,J。智能系统中的概率推理“,”摩根·考夫曼,圣马特奥,加州,1988年。
16.评论:图形模型、因果关系和干预。统计科学8, 3(1993), 266269。
17.实证研究的因果图。生物统计学82, 4(1995年12月),669710。
18.珠儿,J。因果关系:模型、推理和推断。剑桥大学出版社,纽约,2000年;第二版, 2009.
19.直接和间接影响。在十七届会议记录th人工智能不确定性会议(西雅图,华盛顿州,8月25日)。摩根·考夫曼,旧金山,加州,2001,411420。
20.结果的原因和原因的结果。社会学方法与研究杂志, 1 (2015a), 149164。
21.J. Trygve Haavelmo和因果演算的出现。计量经济学理论31, 1 (2015b), 152179;Haavelmo百年纪念特刊
22.Pearl, J.和Bareinboim, E.外部有效性:从做-人口可移植性的演算。统计科学29, 4(2014), 579595。
23.珀尔,j,麦肯齐,D。为什么之书:因果的新科学。Basic Books,纽约,2018年。
24.彼得斯,J., J.和Schölkopf, B.。因果推断的要素:基础和学习算法。麻省理工学院出版社,剑桥,马萨诸塞州,2017。
25.流行病学悖论的解构。OUPblog 2014年10月17日;https://blog.oup.com/2014/10/deconstruction-paradoxes-sociology-epidemiology/
26.里贝罗,M.T,辛格,S,还有格斯特林,c,我为什么要相信你们?:解释任何分类器的预测。在二十二日会议记录ndACM SIGKDD知识发现和数据挖掘国际会议(旧金山,CA, 1317年8月)。ACM出版社,纽约,2016,11351144。
27.罗宾斯,J.M.和绿地,S.直接和间接影响的可识别性和可交换性。流行病学3, 2(1992年3月),143155。
28.Rosenbaum, P.和Rubin, D.倾向评分在因果效应观察性研究中的中心作用。生物统计学70, 1(1983年4月),4155。
29.Shimizu, S., Hoyer, p.o., Hyvärinen, A.和Kerminen, A.J.因果发现的线性非高斯无环模型。机器学习研究杂志(2006年10月),20032030。
30.Shpitser, I.和珍珠,J.因果层次的完整识别方法。机器学习研究杂志(2008), 19411979。
31.斯皮特斯,P., Glymour, C.N,和Scheines, R.。因果关系,预测和搜索,第二版。麻省理工学院出版社,剑桥,马萨诸塞州,2000年。
32.田娟,周永明,杨晓明。因果效应的一般识别条件。在十八届会议记录th全国人工智能会议(加拿大埃德蒙顿,AB, 7月28日- 8月1). AAAI出版社/麻省理工学院出版社,加州门洛帕克,2002,567573。
33.范德朗,M.J.和罗斯,S。目标学习:观察和实验数据的因果推断。施普林格,纽约,2011年。
34.VanderWeele, T.J.因果推理中的解释:中介与互动的方法。牛津大学出版社,纽约,2015。
35.张,J.和Bareinboim, E.转移学习在多武装匪徒:一个因果方法。在26届会议记录th人工智能国际联合会议(1925年8月,澳大利亚墨尔本)。AAAI出版社,门洛帕克,加州,2017,13401346。
a.与此层相关的其他术语包括“无模型”、“模型盲”、“黑盒”和“以数据为中心”;Darwiche5使用“函数拟合”,因为它相当于用神经网络架构定义的复杂函数拟合数据。
b.有人可能会说,深度学习不仅仅是“曲线拟合”,因为它试图通过样本分割交叉验证来最小化“过拟合”,而不是最大化“拟合”。不幸的是,将层次结构中的三个层分开的理论障碍告诉我们,目标函数的性质并不重要。只要我们的系统优化了观察到的数据的某些属性,无论它是高贵的还是复杂的,同时不参考数据之外的世界,我们就回到了层次结构的第1层,这一层包含了所有的限制。
c.编码在图3是由它缺失的箭头传达的。例如,Y不影响X或Z,X不影响Z,最重要的是,Z是唯一影响两者的变量X和Y.这些假设缺乏可测试的含义,可以直接从图是完整的这一事实中得出结论;即存在一条边连接每对节点。
d.例如,经济学家选择代数而不是图形表示,就被剥夺了基本的可检验性检测特征。21
数字图书馆是由计算机协会出版的。版权所有©2019 ACM, Inc.
没有找到条目