随着2022年即将结束,OpenAI发布了一款名为ChatGPT的自动书写系统,迅速在互联网上引起轰动;发布后不到两周,就有超过100万人在网上注册试用。每个读者现在肯定都知道,你输入文本,马上就能得到一段又一段类似人类的文字、故事、诗歌等等。它写的一些东西是如此的好,有些人是如此的好用它在Tinder上约会(“你介意我坐下吗?因为看你做那些臀部外推让我的腿感觉有点无力。”各地的教育工作者都相当惊愕学生们都在用它写学期论文。还有一些人正在使用它尝试重新发明搜索引擎.我从没见过这么热闹的场面。
然而,我们不应该如此完全的印象。
虽然ChatGPT可以写任何东西,但它也很容易混淆。正如我告诉《纽约时报》专栏作家Farhad Manjoo的那样,ChatGPT和之前的相关系统一样“仍然不可靠,仍然不理解物理世界,仍然不理解心理世界,仍然会产生幻觉。."
也就是说,它有规律地编造东西;它所说的有相当一部分根本不是真的。
例如,ChatGPT声称油条对手术很有好处,因为“它们小巧的尺寸可以在手术过程中提高精度和控制,降低并发症的风险,改善手术的整体结果。”;幻觉问题,即机器编造流利的废话,是如此可怕,以至于至少有一个著名的网站Stack Overflow已经暂时禁止计算机生成的提交。
错误是无穷无尽的。系统经常会根据反馈进行调整,但几周后我仍然会收到这样的推文:
当然,现在有了护栏,但有时这些护栏就是糟糕。这是我用ChatGPT做的第一个实验:
这样的失败是很容易找到的,OpenAI的首席执行官山姆·奥特曼和以前嘲笑我的人最终被迫向现实让步:
简而言之,ChatGPT可能听起来像《星际迷航》中的计算机,但现在,你仍然不能信任它。
但这一切都是在2022年。2023年呢?
硅谷乃至整个世界都在等待的是GPT-4。
§
我保证大家一定会大吃一惊。我认识几个真正尝试过GPT-4的人,他们都印象深刻。它真正的马上就要来了(根据一些传言,2023年春天)。当它出现时,它将完全取代ChatGPT;我敢打赌,甚至更多的人们会谈论它的。
在很多方面,人们的期望非常非常高:
从技术上讲,GPT-4将有更多的参数,需要更多的处理器和内存连接在一起,并对更多的数据进行训练。GPT-1使用4.6 g的数据进行训练,GPT-2使用46g的数据进行训练,GPT-3使用750 g的数据进行训练.GPT-4将接受更多的训练,整个互联网的很大一部分。OpenAI已经认识到,在很多方面,越大意味着更好,每次迭代的输出都越来越像人类。GPT-4将会是一个怪物。
但它能解决我们之前看到的问题吗?我不太确定。
虽然GPT-4肯定会似乎它的内部架构比它的前辈更聪明,但仍然存在问题。我怀疑我们将看到的是一个熟悉的模式:最初的巨大轰动,随后是更仔细的科学检查,随后是认识到许多问题仍然存在。
据我所知,GPT-4在架构上与GPT-3基本相同。如果是这样,我们可以预期这种方法仍然是被一些基本的东西破坏了:一个无法构建世界如何运作的内在模型,因此,我们应该预料到无法从抽象的层面理解事物.GPT-4可能更擅长伪造学期论文,但如果它遵循与前几代相同的剧本,它仍然无法真正理解世界,漏洞最终会暴露出来。
因此,与我从人工智能社区听到的关于GPT-4的巨大乐观情绪相反,以下是7个黑暗的预测:
GPT-4和前几代一样,做中国商店里的一头公牛,鲁莽而难以控制.它仍然会犯大量令人摇头的愚蠢错误这种变化很难完全预测。它经常会做你想做的事,有时不是——而且很难提前预测。
关于物理、心理和数学世界的推理仍然不可靠GPT-3在心理理论、医学和物理推理方面受到了挑战。GPT-4将解决以前基准测试中使用的许多单独的特定项目,但仍然会遇到问题,特别是在更长和更复杂的场景中。当被问及医学问题时,它要么拒绝回答(如果有咄咄逼人的护栏),要么偶尔冒出听起来似是而非危险的废话。尽管它吞噬了互联网的很大一部分,但它的可信度和完整性不足以提供可靠的医疗建议.
流畅的幻觉仍然很常见大型语言模型被用作制造听起来似是而非的虚假错误信息的工具,这种风险很容易被诱导,继续——实际上是不断升级。护栏(ChatGPT)可能已经到位,但护栏会在太弱(被“越狱”打败)和太强(拒绝一些完全合理的请求)之间摇摆。在任何情况下,坏人最终都将能够复制GPT-4的大部分内容,放弃现有的任何护栏,并使用山寨系统来创造他们想要的任何叙事。
它的自然语言输出仍然不能可靠地连接到下游程序;例如,它不会是你可以简单直接地连接到数据库或虚拟助手,并产生可预测的结果的东西。GPT-4没有它所谈论的事物的可靠模型,外部程序员无法以可靠的方式向下游进程提供信息。构建虚拟助手之类的东西的人会发现,他们无法可靠地将用户语言映射到用户意图上。
GPT-4本身不会是一个能够执行任意任务的通用人工智能.如果没有外部援助,它将无法在外交领域击败Meta的西塞罗;它无法可靠地驾驶汽车;它将无法可靠地引导像擎天柱这样的机器人成为像机器人罗西那样多才多艺的人。它仍然是涡轮增压的仿作生成器,是头脑风暴和初稿的好工具,但不是值得信赖的一般情报。
人类想要什么和机器做什么之间的“对齐”将继续是一个关键的、尚未解决的问题.该系统仍然无法将其输出限制在可靠地遵循一套关于有益、无害和真实的人类价值观。隐藏偏见的例子将在几天或几个月内被发现。它的一些建议将是令人头疼的坏建议。
当AGI(人工智能)到来时,像GPT-4这样的大型语言模型可能会被视为最终解决方案的一部分,但只是解决方案的一部分.“扩大规模”——建立更大的模型,直到它们吸收整个互联网——将被证明是有用的,但只是在一定程度上。值得信赖的、与人类价值观一致的通用人工智能,将来自于更结构化的、具有更多内置知识的系统,并将至少在一定程度上包含用于推理和规划的明确工具,以及明确的it知识,这些都是GPT等系统所缺乏的。在十年内,也许更短的时间内,人工智能的重点将从单纯关注大型语言模型的扩展,转向专注于将它们与广泛的其他技术集成。在撰写于2043年的回顾中,知识历史学家将得出结论,最初过度强调大型语言模型,然后钟摆逐渐但关键地转向具有更深理解的更结构化系统。
如果这7个预测都被证明是正确的,我希望这个领域最终会意识到是时候继续前进了。
闪亮的东西玩起来总是很有趣,我完全期待GPT-4是迄今为止最闪亮的,但这并不意味着它是一个关键的步骤通往我们可以信任的人工智能的最佳路径.为此,我预测,我们将需要真正的新架构,在其核心包含明确的知识和世界模型。
Gary Marcus(@garymarcus)是一位科学家、畅销书作家和企业家。他最近与欧内斯特·戴维斯合著的一本书,重新启动人工智能,是福布斯评选的人工智能领域7本必读书籍之一。
没有找到条目