什么魔术让我们变得聪明?诀窍就在于没有诀窍。智力的力量来源于我们巨大的多样性,而不是任何单一的、完美的原则。
马文•明斯基,心智的社会
人工智能最近击败了围棋和扑克的世界冠军,并在机器翻译、物体分类和语音识别等领域取得了非凡的进展。然而,大多数人工智能系统都是非常狭隘的。围棋冠军AlphaGo不知道这个游戏是通过在棋盘上放石头来进行的;它不知道什么是“石头”或“板”,如果你给它展示的是矩形板而不是正方形网格,它就需要从头开始重新训练。
为了制造能够理解开放式文本或驱动通用家用机器人的人工智能,我们需要更进一步。我们可以从人类的思维入手,人类的思维在理解能力和灵活思维方面仍远远超过机器。
在这里,我们提供了11条来自认知科学的线索——心理学、语言学和哲学。
人们经常提出一些简单的理论,据称可以解释所有的人类智能,从行为主义到贝叶斯推理再到深度学习。但是,引用费尔斯通和肖尔的话,4“大脑没有单一的工作方式,因为大脑不是单一的东西。相反,大脑有不同的部分,而大脑的不同部分以不同的方式运作:看到一种颜色的作用不同于计划一个假期,计划一个假期的作用不同于理解一个句子,移动一个肢体,记住一个事实,或感受一种情绪。”
人类的大脑是极其复杂和多样的,有超过150个可识别的大脑区域,大约860亿个神经元,不同的类型即使没有数千也有数百个;数万亿突触;每个突触内都有数百种不同的蛋白质。
真正智能和灵活的系统很可能充满复杂性,就像大脑一样。任何试图将智能简化为单一原理或单一“主算法”的理论都注定要失败。
认知心理学经常关注内部表示,例如信念、愿望和目标。经典AI也是如此;例如,为了表示肯尼迪总统1963年著名的柏林之行,人们会添加一组事实,如部分(柏林,德国)和访问(肯尼迪,柏林,1963年6月)。知识就是这种表象的积累,推理就是建立在这种表象的基础上;在这个基础上推断肯尼迪访问过德国是微不足道的。
目前,深度学习试图糊弄这一点,用一堆向量粗略地捕捉到一点正在发生的事情,但从来没有直接表示命题。没有特定的方式来表示访问过(肯尼迪,柏林,1963)或部分(柏林,德国);一切都只是粗略的近似。深度学习目前正与推理和抽象推理作斗争,因为它一开始就不适合表示精确的事实知识。一旦事实模糊,就很难进行正确的推理。大肆宣传的GPT-3系统1就是一个很好的例子。11相关系统BERT3.无法可靠地回答诸如“如果你把两个奖杯放在桌子上,然后再加一个,你有几个?”9
我们知道的很多东西都相当抽象。例如,“X是Y的妹妹”这种关系在许多不同的人对之间都成立:玛利亚是萨沙的妹妹,安妮公主是查尔斯王子的妹妹,等等。我们不仅知道某对特定的人是姐妹,我们还知道姐妹通常是什么,并可以将这些知识应用到个体上。如果两个人有相同的父母,我们可以推断他们是兄弟姐妹。如果我们知道劳拉是查尔斯和卡洛琳的女儿,并且发现玛丽也是他们的女儿,那么我们就可以推断玛丽和劳拉是姐妹。
作为认知模型和常识基础的表征是建立在抽象关系之上的,结合在复杂的结构中。我们可以抽象任何事物:时间片段(“晚上10:35”)、空间片段(“北极”)、特定事件(“亚伯拉罕·林肯遇刺”)、社会政治组织(“美国国务院”)和理论结构(“句法”),并将它们用于解释或故事中,将复杂的情况剥离至其本质,在对世界的推理中产生巨大的影响力。
马文·明斯基(Marvin Minsky)认为,我们应该把人类的认知看作是一个“思维社会”,它有几十个或几百个不同的“代理”,每个“代理”专门负责不同的任务。例如,喝一杯茶需要一个抓住剂、一个平衡剂、一个口渴剂和一些移动剂的相互作用。进化和发展心理学的许多研究都指向同一个方向;头脑不是一个东西,而是很多东西。
进化和发展心理学的许多研究都指向同一个方向;头脑不是一个东西,而是很多东西。
具有讽刺意味的是,这几乎与当前机器学习的趋势相反,后者倾向于使用单一同质机制、内部结构很少的端到端模型。一个例子是英伟达2016年的驾驶模型,它放弃了感知、预测和决策等经典模块。相反,它使用一个单一的、相对统一的神经网络来学习输入(像素)和一组输出(转向和加速指令)之间的直接关联。
这种事情的支持者指出了“联合”训练整个系统的优点,而不是必须分别训练模块。当拥有一个大网络是如此容易的时候,为什么要费心去构建单独的模块呢?
一个问题是,这样的系统很难调试,很少有所需的灵活性。英伟达的系统在人类驾驶员介入前通常只能正常工作几个小时,而不是数千小时(像waymo更模块化的系统)。Waymo的系统可以从A点导航到B点并处理车道变化,而英伟达的系统只能坚持在一条车道上行驶。
当最优秀的人工智能研究人员想要解决复杂的问题时,他们通常会使用混合系统。要在围棋中取得胜利,需要结合深度学习、强化学习、博弈树搜索和蒙特卡洛搜索。沃森的胜利冒险!Siri和Alexa等问答机器人,以及网络搜索引擎使用“厨房水槽”的方法,集成了许多不同的过程。毛等。12展示了一个集成了深度学习和符号技术的系统如何在可视化问题回答和图像文本检索中产生良好的结果。马库斯10讨论了许多不同的这种混合系统。
即使在细粒度的尺度上,认知机制也常常由许多机制组成。以动词及其过去式为例。在英语和许多其他语言中,有些动词的过去时是有规律地形成的,通过一个简单的规则(walk-walked, talk- talking, perambulate-perambulated),而另一些动词的过去时是不规则地形成的(Sing-sang, ring- ring, bring- bring, go- go).根据孩子犯错的数据,我们中的一员(加里·马库斯)和史蒂文·平克(Steven Pinker)提出了一种混合模型,即即使在微观层面上也存在微小的结构,在这种模型中,规则动词是通过规则泛化的,而不规则动词是通过联想网络产生的。
用洪堡的话说,语言的本质是“有限手段的无限运用”。凭借有限的大脑和有限的语言数据,我们设法创建了一种语法,使我们能够说和理解无限范围的句子,在许多情况下,通过用较小的成分(如单个单词和短语)构建更大的句子(就像这个)。如果我们可以说,水手爱这个女孩,我们可以在更大的句子中使用它作为组成部分(玛丽亚想象着水手爱上了这个女孩),可以作为一个更大的句子的组成部分(克里斯写了一篇文章,是关于玛丽亚是如何想象那个水手爱上了那个女孩的),等等,每一个我们都可以很容易地解释。
与之相反的是神经网络研究先驱杰夫·辛顿(Geoff Hinton),他一直主张句子的意思应该被编码在他所谓的“思想向量”中。然而,句子中表达的思想和它们之间微妙的关系太复杂了,无法通过简单地将表面上看起来相似的句子组合在一起来捕捉,9,10建立在这一基础上的系统可以生成符合语法的文本,但对它们生成的文本中随时间推移而展开的内容了解甚少。
如图所示图1:6它是一个字母还是一个数字?根据上下文(参见图2).认知心理学家经常区分自底向上的信息,它直接来自我们的感官,而且自上而下的知识这是我们对世界的先验知识(字母和数字构成了不同的类别,单词和数字是由从这些类别中提取的元素组成的,等等)。一个模糊的符号,如图中所示,在一个环境中看起来是一个样子,在另一个环境中看起来是不同的,因为我们把投射在视网膜上的光与世界的连贯图像相结合。
无论我们看到什么,读到什么,我们都融入了对情况的认知模型,并与我们对整个世界的理解相结合。
在一个经典的实验中,发展心理学家弗兰克·凯尔5问孩子们,一只浣熊做了整容手术,看起来像一只臭鼬,并植入了“超级臭”的东西,它是否会变成一只臭鼬。尽管如此,孩子们还是相信浣熊会一直是浣熊,这大概是他们的生物学理论的结果,他们认为动物的内在才是真正重要的。(孩子们并没有将同样的理论推广到人工制品上,比如一个被改造成喂鸟器的咖啡壶。)
理论中的概念对于有效的学习是至关重要的。假设一个学龄前儿童第一次看到鬣蜥的照片。孩子几乎马上就能认出鬣蜥的其他照片,还能认出视频中的鬣蜥和现实生活中的鬣蜥,很容易就能把它们和袋鼠区分开来。同样,孩子也能从有关动物的一般知识中推断出鬣蜥吃东西、呼吸、它们出生时很小、生长、繁殖和死亡。
没有任何事实是一座孤岛。为了取得成功,一般智力需要把它获得的事实嵌入更丰富的总体理论中,这些理论有助于组织这些事实。13
作为犹太珍珠14强调,对因果关系的丰富理解是人类认知中普遍存在且不可或缺的一个方面。如果世界很简单,我们对一切都了如指掌,也许我们唯一需要的因果关系就是物理学。我们可以通过运行模拟来确定什么影响什么;如果我施加这么多微牛顿的力,接下来会发生什么?
但这种详细的模拟是不现实的;要追踪的粒子太多,时间又太少,我们的信息也太不精确。
相反,我们经常使用近似;我们知道事物是有因果关系的,即使我们不知道确切的原因。我们服用阿司匹林,因为我们知道它能让我们感觉更好;我们不需要了解生物化学。即使我们不了解胚胎发生的确切机制,我们也知道有性行为可以生出婴儿,并且可以据此采取行动。因果知识无处不在,它是我们所做的许多事情的基础。
当你经历日常生活时,你会跟踪各种各样的个体物体,它们的属性和历史。你的配偶曾经是一名记者。你的汽车后备箱上有个凹痕,而且你去年换了变速器。我们的经验是由实体组成的,这些实体会随着时间的推移而持续变化,我们所知道的很多东西都是围绕着这些实体,以及它们的个人历史和特质组织起来的。
奇怪的是,这种观点对深度学习系统来说并不自然。在很大程度上,目前的深度学习系统专注于学习一般的、类别级的关联,而不是关于特定个体的事实。如果没有诸如数据库记录之类的概念和时间和变化的表达表示,就很难跟踪与它们的类别不同的单个实体。
大脑的结构有多少是先天形成的,又有多少是后天习得的?通常的“先天与后天”的对比是错误的二分法。来自生物学、发展心理学和发展神经科学的证据是压倒性的:先天和后天共同作用。
就像大多数机器学习研究人员的目标一样,从绝对空白的石板上学习,会让游戏变得比它应该的要困难得多。显然,最有效的解决办法是将两者结合起来。人类很可能生来就明白,世界是由在空间和时间中相互关联的路径上运行的持久物体组成的,具有几何和数量的感觉,以及直觉心理学的基础。
同样,AI系统也不应该试图从像素和动作之间的相关性中学习一切,而应该从对世界的核心理解开始,以此作为开发更丰富模型的基础。7
认知科学的发现可以给我们提供很多信息,帮助我们构建具有人类思维灵活性和普遍性的人工智能。机器不需要复制人类的思维,但对人类思维的彻底理解可能会导致人工智能的重大进步。
在我们看来,前进的道路应该从集中研究如何实施核心框架开始15关于人类的知识:时间、空间、因果关系,以及关于物理对象和人类及其相互作用的基本知识。这些应该嵌入到一个可以自由扩展到每一种知识的体系结构中,始终牢记抽象、组合性和个体跟踪的中心原则。10我们还需要开发强大的推理技术,可以处理复杂、不确定和不完整的知识,可以自由地从上到下,16并将这些与感知,操纵和语言联系起来,以建立丰富的世界认知模型。重点将是构建一种以人为本的学习系统,利用人工智能拥有的所有知识和认知能力;它将学习到的知识融入到先前的知识中;就像一个孩子,贪婪地从所有可能的信息来源中学习:与世界互动,与人互动,阅读,看视频,甚至被明确地教导。
这是一个艰巨的任务,但这是必须要做的。
1.布朗,T.B.等人。语言模型是少有机会的学习者。(2020);arXiv预印本arXiv: 2005.14165
2.人类水平的智力还是动物水平的能力?Commun。ACM 61, 10(2018年10月),56-67。
3.戴夫林,J.等。伯特:深度双向转换语言理解的预训练。naacl - 2019。(2019), 4171 - 4186。
4.认知不影响感知:评估“自上而下”效应的证据。行为与脑科学, e229。(2016)。
5.凯尔,足球俱乐部的概念,种类和认知发展.麻省理工学院出版社,剑桥,麻州,1992年。
6.G. Lupyan和Clark, A. Words and world: Predictive coding and language=perception-cognition interface。心理科学的最新进展, 4(2015), 279-284。
7.马库斯,g,先天,阿尔法零和人工智能。(2018);arXiv预印本arXiv: 1801.05667)。
8.深度理解:人工智能的下一个挑战。neurips - 2019(2019)。
9.马库斯,g。GPT-2和智力的本质。梯度.(2020年1月25日)。
10.人工智能的下一个十年:迈向强大人工智能的四个步骤。(2020);arXiv预印本arXiv: 2002.06177
11.GPT-3, Bloviator: OpenAI的语言生成器不知道它在说什么。技术评论(2020年8月22日)。
12.毛,j等。神经符号概念学习者:从自然监督中解读场景、单词和句子。arXiv预印本arXiv: 1904.12584。
14.J.珀尔和D.麦肯齐。《为什么之书:因果新科学》.Basic Books,纽约,2018年。
数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc.
我想提醒几位作者,丹尼尔·卡尼曼(Daniel Kahneman)的《思考,快与慢》(Thinking, fast and slow)一书,企鹅出版社,2011年出版(ISBN: 978-1-846-14606-0)。DK解释说:“这两种系统驱动着我们思考和做出选择的方式。一个系统是快速、直观和感性的;另一种则更慢、更慎重、更有逻辑。”这两种系统都有各自的优缺点。鉴于这种二分法,我想知道如何让人工智能模仿人类的思维。R. Nandakumar (r_nand)又名Nandakumar Ramanathan。
Nandakumar Ramanathan,人工智能社区确实知道他的工作。今年4月,他是AAAI炉边聊天活动(https://vimeo.com/390814190)的嘉宾。上周,他在#aidebate2: https://www.youtube.com/watch?v=VOI3Bb3p4GM上发表了演讲
我自己(“个人”)的观点是——没有二分法。没有单独的System1、System2处理模式供大脑切换;相反,它是一个连续体,基于在某种情况下需要多少刻意/有意识的“注意力”。熟悉的、常规的(由于过去的经验、实践……)情况处理起来很少引起注意,而新奇的、“意外的”、不同寻常的情况(没有基于过去的简单“查找”)则需要更多的注意。
这些见解加强了人工智能的基本原理和原则,这些原理已经存在很长时间了。然而,缺少的是一个具体的、可测量的研究项目,可以沿着一个或多个这些见解取得进展。
显示3评论