acm-header
登录

ACM通信

BLOG@CACM

像ChatGPT这样的大型语言模型说的是最糟糕的事情


原载于我们可以信任的人工智能之路

介绍ChatGPT/LLM错误跟踪器

2022年11月30日,OpenAI发布了ChatGPT,这是一个由大型语言模型GPT-3驱动的聊天机器人。尽管它并没有比早期版本的GPT-3更智能或更强大,但它吸引了公众和媒体的注意力,达到了前所未有的程度。(据我们所知,OpenAI的开发团队对此感到非常惊讶。)在它发布的几天内,就有超过100万用户在上面进行了各种各样的实验。

不用说——或者更确切地说,是这个应该不用说,但这个明显的事实可能会被正在进行的雪崩式的炒作所掩盖——ChatGPT做了所有它的前辈们犯了同样的错误

在我们看来,这是不可避免的,在一个系统中,它被训练成优化目标,产生一个又一个听起来似乎合理的单词,而不是真正参与语言的意义。例如,ChatGPT不能可靠地数到四(图1),也不能在简单的文字问题中做一位数的算术(图2)。它不能弄清楚故事中事件的顺序(图3)。它不能对物理世界进行推理(图4)。它不能将人类的思维过程与他们的角色联系起来(图5)。它会编造事情(图6)。它发布的输出显示出性别歧视和种族主义偏见(图7)。它可以有时在这些方面产生正确和可接受的输出,但不是可靠地.ChatGPT是一个概率程序;如果你重新进行图1-7中的实验,你可能会得到相同的结果,或正确的结果,或不同的错误结果。

对于这一切,我们能做些什么?我们应该做些什么?

图1:计数

图2:简单应用题中的一位数算术
(改编自弗朗索瓦·查顿和安德鲁·桑德斯特罗姆的例子)。

图3:故事上下文中的年表

图4:物理世界的推理

图5:关于人类思维过程的推理

图6:重写历史。Jake Foster, 1/7/23, Christian Georgescu, 1/8/23, Vadim Berman, 1/8/23

图7:性别歧视和种族歧视。Steven Piantadosi的推文, 12/4/22。
这篇推特文章包括了这类问题的几个进一步的例子
(在ChatGPT的后续迭代中部分解决)。

在前几年,我们两人花了相当多的时间设计、运行和发布测试,以暴露大型语言模型(LLM)技术的局限性(例如。在这里),但这样做只能触及表面。

然而,这一次,我们绝不是孤单的;事实上,我们非常惊讶和欣慰地发现,来自互联网各地的人都在做类似的实验,往往比我们自己的更有创意,并在社交媒体上报告他们的结果,或通过电子邮件发给我们。这些由“蜂群思维”作为系统能力探测所产生的测试的质量通常令人印象深刻,它们在主题和方法上比我们自己所能想出的要多样化得多;在许多方面,它们比通常在已系统创建并发布的人工智能系统基准。(几个星期前,同样的事情发生在卡拉狄加系统,由Meta AI创建的以科学为导向的LLM;在那次事件中,来自互联网世界的直接抵制是如此强烈,以至于公共界面在48小时内就被撤销了。)

更重要的是,其中一些报告产生了直接影响。在上面的例子(如图7)中揭示的偏见和偏见问题是如此不可接受,以至于OpenAI觉得有必要立即解决这些问题。因此,他们迅速创建了一个补丁,该补丁回答了上面的提示,基本上是一个罐头信息,拒绝与之合作。

补丁在一定程度上起作用;如果您现在运行图7中的提示,ChatGPT将强调地告诉您,不应将种族和性别用作判断某人是否是优秀科学家的标准。不过,这些护栏并不完美,在某些方面过于严格,而在另一些方面过于宽松。它们太松散了,因为有些人已经找到了绕过这些“护栏”的方法,他们以各种间接的方式提出请求;他们在这方面过于严格,护栏往往会导致荒谬的过度谨慎的输出(图8)。

图8:无意义的护栏

好消息是,到目前为止,其中一些问题已经开始为人所知,至少在twitter领域是这样。但不幸的是,关于他们的报道也非常分散,非常不系统。

首先,尽管许多人似乎听说过其中的一些错误(例如从媒体的报道中),但很少有人意识到它们是多么普遍或广泛;事实上,最近推特上一个错误地声称这些问题已经解决的帖子获得了惊人的关注。

另一方面,尽管OpenAI可能出于内部目的追踪这些错误,但科学界无法访问他们收集到的任何信息,这让它陷入了困境。(这也让我们对这个词感到困惑开放在名字里OpenAI但这是另一个故事)。与此同时,像GPT-3及其衍生系统这样的系统,对于任何试图了解它们本质的人来说,至少会带来三个特殊问题:

  • 给定提示符的输出可以随机变化。例如,在“美国第一任总统的性别是什么?”这个问题上,据我们所知,出现了正确答案、错误答案(图6)以及奇怪的转向和不合作(图8)。
  • [LLM的输出可以依赖于训练语料库中在不相关方面相似的例子的存在。例如,Razeghi等人证明,如果llm使用训练语料库中经常出现的数字(如“24”),比使用不太频繁的数字(如“23”),可以更准确地解决算术问题。就ChatGPT而言,训练语料库并没有向公众提供。(再一次,我们想知道“开放”这个词的使用)因此,外部科学家不可能确定任何特定的正确答案在多大程度上仅仅反映了训练数据中一些非常相似的例子。这增加需要对错误进行广泛的记录,因为人们所能做的最好的事情就是记录一般的趋势;没有一个例子能说明问题。
  • 因为它们本质上是开放式的,人们可以测试的东西非常广泛,没有一个科学家可能会想到所有的东西。即使是非常简单的缝隙也可能长时间不被注意到。我们两个人已经思考这类问题三年了,我们专门思考了简单的算术问题,但在这段时间里,我们从来没有想过要测试这些系统是否可以计数,就像图2所示。与此同时,公平地说,没有人完全理解大型语言模型是如何工作的;它们的黑盒性质与开放性的结合意味着,如果我们要真正理解它们的范围和限制,我们需要所有人都参与进来。

由于所有这些原因,我们最近决定将一个面向社区的ChatGPT错误语料库(也包括其他大型语言模型)放在一起。我们找来了一些朋友——Jim Hendler, William Hsu, Evelina Leivada, ed Shwartz和Michael Witbrock——在Michael Ma的技术帮助下,建立了这个网站。

重要的是,我们已经把它结构化了任何人可以随时查看数据。

用于添加示例的界面还有一个单独的查看采集信息接口数据库格式。在添加示例时,需要生成示例的模型、错误的简要描述以及示例的截图或文本,并且为了验证目的,您必须提供一个电子邮件地址,这是不会发布的。错误类型的分类,到相关外部网站的链接(例如,在社交媒体上发布的帖子)和其他评论是可选的。

如果你关心大型语言模型,我们希望你能看一看,并在注意到它们时考虑贡献有趣的错误;如果您可以分享这篇文章以及这个链接,那就更好了,这样存储库就会广为人知。

§

我们不会声称我们所做的是完美的。例如,有人可能会说,我们应该包括积极的例子,也包括消极的例子(我们没有,因为已经有一个网站了ShareGPT数据库中错误类型的分类当然是粗糙的、任意的和不完整的(我们包括了一个笼统的“其他”)。我们也在用非常轻的触控来转向;在我们看来,并非每个例子都令人信服,但我们的目标是包容,而不是排斥。但正如俗话所说,完美(在这种情况下,既不能实现也不能定义)不应该是好的敌人。在我们看来,考虑到系统固有的不可预测性和广泛的范围,这样的事情已经过去了。

我们还将该系列视为对某些媒体叙事的重要对位。《纽约时报》凯文·卢斯的文章倾向于强调成功,而没有认真考虑错误的范围。

从最初几天收集的初始数据中,科学家、技术专家或外行读者现在可以很容易地看到许多不同类型的错误,并尝试自己了解这些错误的可复制性,以便对科学问题做出明智的判断,比如ChatGPT的输出在多大程度上反映了对世界的清晰理解,以及技术问题,比如它的输出在多大程度上对特定应用是可信的。我们对这些问题的看法是众所周知的,现在你可以自己去看,不再被推特所能表达的限制所阻碍。玩得开心!

输入数据的表单是在这里

检查现有数据的表单为在这里

Gary Marcus是一位科学家,畅销书作家和企业家。欧内斯特•戴维斯他是纽约大学计算机科学教授。合作多年,他们是重启人工智能:构建我们可以信任的人工智能,是福布斯评选的人工智能领域7本必读书籍之一


没有找到条目

Baidu
map