acm-header
登录

ACM通信

BLOG@CACM

语言模仿游戏与广浅AI的到来


当我的儿子还是个蹒跚学步的孩子时,他的妈妈不得不去国外旅行,他几乎每天都要和妈妈在电话里“交谈”。因为他还是在胡言乱语而不是说话。但是,令人印象深刻的(和可爱的)事情是,他对我们打电话时语法的模仿是完美的,充满了意味深长的停顿,夸张的手势,在打电话时走来走去等等。

人工智能中的自然语言生成系统目前正在经历模仿自身的一个相当肥沃的阶段——不仅仅局限于几对不幸的父母,而是全世界。所谓的大型语言模型(llm),如GPT-3,通过在大量的文本语料库(大约30亿页)上训练自己来学习模仿语言生成从网上爬来的.这篇文章是关于如此庞大的语言模型的影响,但首先我们将从它们如何工作的一些背景知识开始。

llm学习一次一个单词完成训练语料库中的一段文本。假设在训练数据中有这样一句话:“敏捷的棕色狐狸跳过了栅栏。”LLM可以训练自己完成部分句子“The quick brown fox…”,如果当前模型给出的是“run”而不是“jumped”,那么学习组件将接受这个错误并将其传播回去,以调整模型的参数。从系统的角度来看,“跳”和“跑”都被视为向量(或数字序列),而这些向量之间的差异就是误差。虽然调优参数让人想起大型音频混音器上的DJ调优旋钮的形象,但值得注意的是llm有相当多的可调参数。以GPT-3为例,它有1750亿个可调参数,并且它使用大量的计算设施来精心调整这些参数(据估计,一个普通的现成的GPU单元,这将需要花费时间)训练GPT-3需要355年,最低成本可能在500万美元左右).

得到的训练/调优模型显示出了非常令人印象深刻的能力,可以接受任何文本提示,并提供合理的补全/详细说明。例如,此链接显示GPT-3的完成基于本专栏的第一段。尽管看起来合理的东西实际上是与提示切向相连的,但仔细观察就会发现。然而,公平地说,即使在三年前,也没有人真的相信我们会有人工智能系统用完美的语法喘气至少在我们联想到能说会道的算命先生和神仙的水平上,文本是“似是而非”的。

不出所料,大众媒体大做文章对llm的能力感到惊讶和兴奋.一些出版据说是GPT-3写的专栏(毫无疑问,这得益于人工编辑的重要过滤帮助)。其他人则对即将到来的危机感到焦虑所有写作工作的自动化

虽然OpenAI的GPT-3可能是这些llm中最著名的,但几乎所有大型科技公司都在开发GPT-3,据报道有几家公司已经在面向客户的应用程序中使用了GPT-3。谷歌宣布其基于bert的llm在搜索引擎中有多种用途。它还发布了专门训练大规模对话数据的llm Meena和Lambda,作为下一代聊天机器人的后端。不出所料,也有一股开发热潮llm为英语以外的语言量身定制.中国最近宣布LLM叫吴道它有1.75万亿的可调参数,是GPT-3的10倍!开源实现在参数容量方面正在慢慢赶上商业的。

从“一次一个词补全”的设计中可以很清楚地看出,llm专注于寻找提示符(以及之前生成的任何补全词)的合理补全。对于补全的全局语义没有隐含的元推理(除了考虑到大量训练数据,补全具有足够高的可信度之外)。具体来说,没有任何形式的准确性或真实性的保证。

然而,作为一个物种,我们人类特别容易混淆语法和语义——无论是口音和成就,美丽和天赋,还是自信和内容。因此,llm能够生成语法完美、合理可信的文本(就像一个能说善辩的占卜者),对我们来说是一个相当有效的罗夏墨迹测试!一些人在它们身上看到了奇点和人工智能达到一般人类智能的乐观未来,而另一些人则被它们潜在的误用(不管是有意的还是无意的)吓坏了。去年,关于如何正确部署llm的观点在一个相当公开的舞台上上演谷歌及其AI和伦理小组

一开始,人们对llm的担忧如此之多,这似乎有点奇怪,与AI的其他令人印象深刻的成就相比,比如深蓝(Deep Blue)或阿尔法围棋(Alpha Go)。后者是深奥而狭隘的智慧的例子。几乎可以证明,他们擅长于自己的特定任务,但仅此而已。我们现在已经习惯了。相比之下,llm属于宽泛但肤浅的智力范畴。尽管他们可以在几乎任何话题上用肤浅的智慧喋喋不休,但他们无法保证所产生的内容。llm展现出的宽泛而肤浅的语言能力既令人恐惧,又令人兴奋,因为我们知道,我们中的许多人都很容易被它欺骗。

可以肯定的是,在计算机支持的合作工作环境中,llm的大多数应用都是将它们作为工具来支持我们自己的写作,这是非常有帮助的,尤其是对那些对这门语言不是特别精通的人。2000年代初,我有一个来自中国的聪明的博士生,他会把他措词不当的句子放在谷歌上作为搜索查询,然后查看结果修改自己!想象一下,如果使用基于llm的工具,他的效率会提高多少!事实上,就连一些有理由对这类技术持反对态度的记者也对它们赞不绝口基于llm的写作工具

llm还被证明非常擅长快速学习从一种格式转换到另一种格式;例如,从文本规范到代码片段,从而为编码创造提供了与已知的为文字创造提供的同样的支持。这种翻译能力可能会让我们这样做用自然语言与电脑互动,而不是晦涩难懂的命令行语法。事实上,llm的普遍性甚至诱使一些研究人员开始用这个有争议的术语重新命名它们。基础模型."

令人担忧的场景是系统部署在终端用户的应用程序中,无论是机器生成的文本、解释还是搜索查询详细说明。在这里,llm所表现出的宽泛和肤浅的语言智力会使人类处于弱势地位。在最近的一个案例中,据报道,GPT-3支持的一个医疗聊天机器人建议测试患者自杀。在另一项研究中,72%的人在阅读llm制作的假新闻时认为它是可信的。即使是那些被认为精通电脑的人也几乎没有免疫力GPT-3制作的一篇虚假博客文章登上了黑客新闻的榜首去年。值得赞扬的是,开放AI政策团队确实做了认真的尽职调查潜在影响然后才分阶段发布LLM。然而,考虑到人工智能研究在很大程度上的开放和民主性质,以及在开发模型时缺乏有效的护城河,没有一家公司可能控制llm的使用和滥用,现在潘多拉的盒子已经打开。

关于llm生成的文本的一大担忧是,它常常充斥着社会偏见和刻板印象。有一个相当臭名昭著的早期GPT-3完成的例子涉及穆斯林男性暴力的无伤大雅的提示.这些llm会给出有偏差/有毒的完井应该不足为奇,因为他们实际上是在我们原始的荣格集体潜意识上得到有效训练的,并被上传到网上,充斥着偏见和偏见。

虽然“偏见”得到了很多关注,但现实是GPT-3既不能支持其偏见陈述的准确性,也不能支持其公正/礼貌的陈述。在训练数据的背景下,所有的意义/准确性——超出似是而非的完成——都在旁观者的眼中。llm生成的文本类似于我们的潜意识(系统1)思想,在它们被意识(系统2)文明规范和约束过滤之前。在明确的知识约束下(如社会规范等)控制数据驱动的AI系统仍然是一个相当开放的研究问题。最近的一些进展包括通过获取社会习俗和规范的“显性知识”,并将其转换为精心策划(手工编码?)的额外培训数据,使GPT-3听起来更礼貌。这种不切实际的方法是脆弱的、耗时的,而且肯定无助于提高内容的准确性,即使它们碰巧使生成的文本更有礼貌。我们需要更有效的注入方法llm对社会习俗和规范有明确的了解。

只要我们使用llm作为在计算机支持的合作工作场景中编写辅助工具,它们就会非常有效。毕竟,更原始的语言模型(例如将文档仅视为单词的集合)已经被证明是有用的,而当前的llm捕捉了更多的人类语言结构。但是,当它们被放置在面向终端用户的应用程序中时,需要非常谨慎。但考虑到商业压力,这并不能得到保证。在一个容易访问llm的世界里,我们人类可能要么在玩一个永久的验证码,试图梳理人类与机器文本的区别或者,更糟糕的是,准备在llm炮制的语法令人愉悦的文本摘要和解释的喧嚣中,竞争我们(更深层次的?)的想法和治疗。

在研究方面,最大的悬而未决的问题是llm的进步何时以及是否能使它们超越模仿语法。在我儿子模仿我们打电话的例子中,随着时间的推移,他的潜意识似乎在句法上变得更好了,而他的意识自我当然在驯服他的喋喋不绝的声音并将其弯曲成他想要表达的内容方面变得更好了。llm能否以这种方式发展还有待观察。学术界已经有了一股建立研究中心来研究这个问题的热潮。

苏巴拉奥Kambhampati他是亚利桑那州立大学计算机科学教授,也是人工智能进步协会(Association for the Advancement of Artificial Intelligence)的前主席,主要研究规划和决策方面的基本问题,尤其受到人类感知AI系统挑战的激励。可以在推特上关注他@rao2z。


没有找到条目

登录全面访问
忘记密码? »创建ACM Web帐号
Baidu
map