acm-header
登录

ACM通信

贡献的文章

语言模型:过去、现在和将来


人-机器人交互的物理表现,插图

资料来源:Andrij Borys Associates;在上面

自然语言处理(NLP)近年来发生了革命性的变化。由于预先训练的语言模型的开发和使用,在许多应用中取得了显著的成就。预先训练的语言模型有两个主要优点。它们的一个优点是可以显著提高许多NLP任务的准确性。例如,可以利用BERT模型实现比人类在语言理解方面更高的性能。8我们还可以利用GPT-3模型来生成语言生成中类似人类写作的文本。3.预训练语言模型的第二个优点是它们是通用的语言处理工具。在传统的自然语言处理中,要执行基于机器学习的任务,必须标记大量的数据来训练模型。相比之下,目前只需要标记少量数据来微调预先训练的语言模型,因为它已经获得了语言处理所需的大量知识。

回到顶部

关键的见解

ins01.gif

本文从计算机科学的历史发展和未来趋势的角度,为一般读者简要介绍了语言建模,特别是预先训练过的语言建模。它不是一个全面的调查,而是一个概述,突出的基本概念,直观的解释,技术成就和基本挑战。虽然本文定位为导论,但也可以帮助知识渊博的读者加深理解并发起头脑风暴。还为初学者提供了关于预训练语言模型的参考资料。

自然语言处理是计算机科学(CS)、人工智能(AI)和语言学的一个分支领域,具有机器翻译、阅读理解、对话系统、文档摘要、文本生成等应用。近年来,深度学习已成为自然语言处理的基础技术。

在我们看来,利用数学手段对人类语言建模主要有两种方法:一种是基于概率论,另一种是基于形式语言理论。这两种方法也可以结合使用。从基本框架的角度来看,语言模型属于第一类。

形式上,语言模型是定义在单词序列(一个句子或一个段落)上的概率分布。语言模型是基于概率论、统计学、信息论和机器学习为自然语言文本建模的重要机制。由深度学习支持的神经语言模型,特别是最近开发的预训练语言模型,已经成为自然语言处理的基础技术。

本文首先介绍了马尔科夫和香农(基于概率论)研究的语言建模的基本概念。接下来,我将讨论乔姆斯基提出的语言模型(基于形式语言理论),然后描述神经语言模型作为传统语言模型的扩展的定义。然后,我将解释预训练语言模型的基本思想,然后讨论神经语言建模方法的优点和局限性,并预测未来的趋势。

回到顶部

马尔可夫和语言模型

安德烈·马尔可夫可能是第一个研究语言模型的科学家,10尽管“语言模型”一词在当时并不存在。

假设w1w2,,wN是一串字。那么,可以计算出单词序列的概率如下:

eq01.gif

pw1|w0)=pw1).不同类型的语言模型使用不同的方法来计算条件概率pw|w1w2,,w-1).学习和使用语言模型的过程称为语言建模。n-gram模型是一种基本模型,它假设每个位置上的单词只依赖于n- 1个以前的职位。也就是说,模型是n- 1阶马尔可夫链。

ueq01.gif

马尔科夫在1906年研究了马尔科夫链。他首先考虑的模型非常简单,只有两个状态和这两个状态之间的转移概率。马尔可夫证明了如果一个人按照跃迁概率在两种状态之间跳跃,那么访问这两种状态的频率将收敛于期望值,这就是马尔可夫链的遍历定理。在随后的几年里,他对模型进行了扩展,证明了上述结论在更普遍的情况下仍然成立。

为了提供一个具体的例子,马尔可夫将他提出的模型应用于亚历山大·普希金的诗歌小说,尤金·奥涅金在1913年,。他去掉了空格和标点符号,将小说中的前2万个俄语字母分为元音和辅音,得到了小说中元音和辅音的序列。马尔科夫用纸和笔计算了元音和辅音之间的转换概率。然后,利用数据验证了最简单马尔可夫链的特征。

有趣的是,马尔可夫链最初的应用领域是语言。Markov研究的例子是最简单的语言模型。

回到顶部

香农与语言模型

1948年,克劳德·香农发表了开创性的论文《通信的数学理论》,开创了信息论领域的先河。在本文中,Shannon引入了熵和交叉熵的概念,研究了n-gram模型的性质。30.(香农根据约翰·冯·诺伊曼的建议,从统计力学中借用了“熵”一词。)

熵表示一个概率分布的不确定性,交叉熵表示一个概率分布相对于另一个概率分布的不确定性。熵是交叉熵的下界。

假设语言(词序列)是由随机过程产生的数据。n-g的概率分布熵定义如下:

ueq02.gif

在哪里pw1w2,,wn)表示n-gram的概率w1w2,,wn.n-g概率分布相对于数据“真”概率分布的交叉熵定义如下:

ueq03.gif

在哪里w1w2,,wn)表示n-g的概率w1w2,,wn而且pw1w2,,wn)表示n-gram的真概率w1w2,,wn

以下关系成立:

ueq04.gif


有趣的是,马尔可夫链最初的应用领域是语言。马尔可夫研究的例子是最简单的语言模式。


Shannon-McMillan-Breiman定理指出,当语言的随机过程满足平稳性和遍历性条件时,下列关系具有:

ueq05.gif

也就是说,当单词序列长度趋于无穷大时,可以定义语言的熵。熵是一个恒定值,可以从语言的数据中估计出来。

如果一种语言模型能比另一种模型更准确地预测单词序列,那么它的交叉熵应该更低。因此,Shannon的工作为语言建模提供了一个评估工具。

注意,语言模型不仅可以模拟自然语言,还可以模拟正式和半正式语言——例如,Peng和Roth。21

回到顶部

乔姆斯基与语言模型

与此同时,诺姆·乔姆斯基(Noam Chomsky)在1956年提出了乔姆斯基语法层次结构,用来表示一种语言的语法。他指出,有限状态语法(也是n-gram模型)在描述自然语言方面有局限性。4

乔姆斯基的理论认为,一种语言由有限或无限的句子集合组成,每个句子是一组长度有限的单词序列,单词来自有限的词汇表,语法是一组生成规则,可以生成语言中的所有句子。不同的语法可以产生不同复杂性的语言,它们形成了一个层次结构。

能够生成有限状态机可接受的句子的语法是有限状态语法或规则语法,而能够生成非确定性下推自动机可接受的句子的语法是上下文无关语法。有限状态语法被恰当地包含在与上下文无关的语法中。

在有限马尔可夫链(或n-gram模型)之下的“语法”是一种有限状态语法。有限状态语法在生成英语句子时确实有局限性。例如,英语表达之间存在语法关系,如(i)和(ii)中的下列关系。

  • (i)如果S1,则S2。
  • (ii) S3或S4。
  • (iii)如果是S5,则是S6,如果是S7,则是S8

原则上,这些关系可以无限地组合以产生正确的英语表达(如例iii)。然而,有限状态语法不能描述所有的组合,而且,在理论上,有一些英语句子是无法覆盖的。因此,乔姆斯基认为用有限状态语法(包括n-gram模型)描述语言有很大的局限性。相反,他指出上下文无关的语法可以更有效地为语言建模。在他的影响下,在接下来的几十年里,上下文无关语法在NLP中得到了更多的使用。(乔姆斯基的理论对现在的NLP影响不大,但仍有重要的科学价值。)

回到顶部

神经语言模型

2001年,Yoshua Bengio和他的合著者提出了第一个神经语言模型,1这开启了语言建模的新纪元。Bengio, Geoffrey Hinton和Yann LeCun获得了2018年ACM A.M.图灵奖,因为他们在概念和工程上的突破,使深度神经网络成为众所周知的计算的关键部分。

n-gram模型的学习能力有限。传统的方法是从语料中估计条件概率pw|wi n+1wi n+ 2,,w-1)对模型进行平滑处理。然而,模型中参数的数量是指数级的OVn),V表示的词汇量的大小。当n增加时,由于训练数据的稀疏性,模型的参数无法准确学习。

Bengio等人提出的神经语言模型从两个方面改进了n-gram模型。首先,使用实值向量(称为单词嵌入)来表示一个单词或单词的组合。(单词的嵌入比单词的“one-hot vector”的维数要低得多,“one-hot vector”中单词对应的元素为1,其他元素为0。)

词嵌入作为一种“分布式表示”,比单一热点向量具有更好的效率、泛化能力、鲁棒性和可扩展性。其次,语言模型采用神经网络表示,大大减少了模型中参数的数量。条件概率由神经网络决定:

ueq06.gif

(在哪里wi n+1wi n+ 2,,w-1)表示单词的嵌入wi n+1wi n+ 2,,w-1f(·)为神经网络;而且ϑ网络参数。模型中参数的数量只有顺序OV).图1显示模型中表示之间的关系。每个位置都有一个中间表示,它依赖于前一个位置的单词嵌入n- 1个位置,这适用于所有位置。然后使用当前位置的中间表示为该位置生成一个单词。

f1.jpg
图1。原始神经语言模型中表征之间的关系。

Bengio等人的工作之后,开发了大量的词嵌入方法和神经语言建模方法,从不同的角度进行了改进。

具有代表性的词嵌入方法有Word2Vec。1819具有代表性的神经语言模型是循环神经网络(RNN)语言模型,包括长短时记忆(LSTM)语言模型。911在RNN语言模型中,每个位置的条件概率由RNN决定:

ueq07.gif

在哪里w1w2,,w-1表示单词的嵌入w1w2,,w-1f(·)为RNN;而且ϑ网络参数。RNN语言模型不再有马尔可夫假设,每个位置的单词依赖于之前所有位置的单词。RNN中的一个重要概念是它的中间表示或状态。在RNN模型中,单词之间的依赖关系由状态之间的依赖关系来表征。模型参数在不同位置共享,但在不同位置得到的表示形式不同。(为了便于理解,我们在本文中不给出神经网络的正式定义或给出神经网络的体系结构。)

图2展示了RNN语言模型中表示之间的关系。每个位置上的每一层都有一个中间表示,表示到目前为止单词序列的“状态”。当前位置的当前层的中间表示由上一位置的同一层的中间表示和当前位置下一层的中间表示决定。当前位置的最后中间表示用于计算下一个单词的概率。

f2.jpg
图2。RNN语言模型中表示之间的关系。在这里,表示一个句子的开始,表示一个句子的结束。

语言模型可以用来计算语言的概率(词序列)或生成语言。在后一种情况下,自然语言句子或文章是通过从语言模型中随机抽样生成的。众所周知,LSTM语言模型从大量数据中学习,可以生成相当自然的句子。

语言模型的一种扩展是条件语言模型,它计算给定条件下一个词序列的条件概率。如果条件是另一个单词序列,那么问题就变成了从一个单词序列到另一个单词序列的转换——也就是所谓的序列到序列问题。机器翻译,533文本摘要,20.与生成对话31这样的任务。如果给定的条件是一张图片,那么问题就变成了从图片到单词序列的转换。图像字幕35就是这样的任务。

条件语言模型可用于各种各样的应用程序。在机器翻译中,系统将一种语言的句子转换成另一种语言的句子,具有相同的语义。在对话生成中,系统对用户的话语产生响应,两个消息形成一轮对话。在文本摘要中,系统将长文本转换为短文本,使短文本代表长文本的要点。模型的条件概率分布所代表的语义因应用的不同而不同,是从应用中的数据中学习得来的。

序列对序列模型的研究促进了新技术的发展。一个具有代表性的序列到序列模型是Vaswani等人开发的变压器。34变压器完全基于注意机制5并利用注意力在编码器和解码器之间进行编码、解码和信息交换。目前几乎所有的机器翻译系统都采用变压器模型,机器翻译在实践中已经达到了几乎可以满足需求的水平。转换器的体系结构现在几乎被所有预先训练的语言模型所采用,因为它在语言表示方面具有优越的能力。

回到顶部

Pre-Trained语言模型

预训练语言模型的基本思想如下。首先,基于转换器的编码器或解码器等实现语言模型。模型的学习分为两个阶段:预训练,即使用非常大的语料库通过无监督学习(也称为自监督学习)训练模型的参数,以及微调,即将预训练的模型应用于特定任务,并通过监督学习使用少量标记数据进一步调整模型的参数。3.78141624252636中的链接表1提供学习和使用预先训练的语言模型的资源。

t1.jpg
表1。学习和使用预先训练的语言模型的资源。

预先训练的语言模型有三种类型:单向、双向和序列对序列。由于篇幅所限,本文仅涉及前两种类型。所有主要的预训练语言模型都采用了转换器的体系结构。表2提供现有预训练语言模型的摘要。

t2.jpg
表2。现有预训练语言模型的总结。

变压器具有较强的语言表达能力;一个非常大的语料库包含丰富的语言表达式(这样的无标签数据可以很容易地获得),训练大规模深度学习模型变得更加有效。因此,预先训练的语言模型可以有效地表示语言的词汇、语法和语义特征。预先训练的语言模型,如BERT和GPTs (GPT-1、GPT-2和GPT-3),已经成为当前NLP的核心技术。

预先训练的语言模型应用给自然语言处理带来了巨大的成功。“微调”的BERT在语言理解任务(如阅读理解)的准确性方面优于人类。817“经过微调的”GPT-3在文本生成任务中也达到了惊人的流畅程度。3.(请注意,结果仅表明机器在这些任务中的更高性能;人们不应该简单地解释BERT和GPT-3比人类更能理解语言,因为这也取决于基准测试是如何进行的。6从历史经验来看,对人工智能技术的能力有正确的理解和预期对该领域的健康增长和发展至关重要。)

GPTs由Radford等人开发。2526和布朗等人。3.具有以下架构。输入是一个单词序列w1w2,,wN.首先,通过输入层,创建一个输入表示序列,表示为一个矩阵H(0).在通过l在变压器解码器层中,创建一个中间表示序列,表示为一个矩阵Hl

ueq08.gif

最后,基于该位置的最终中间表示,计算单词在每个位置的概率分布。GPTs的预训练与传统的语言建模相同。目标是预测一个单词序列的可能性。对于一个给定的词序列ww1w2,,wN,我们计算并最小化交叉熵或负对数似然来估计参数:

eq02.gif

在哪里ϑ为GPTs模型的参数。

图3显示了GPTs模型中表示形式之间的关系。每个位置的输入表示由单词嵌入和“位置嵌入”组成。每个位置上的每个层的中间表示是由前面位置上的下面层的中间表示创建的。单词的预测或生成在每个位置从左到右重复执行。(1)和(2)。换句话说,GPTs是一种单向的语言模型,从一个方向对单词序列进行建模。(注意RNN语言模型也是单向语言模型。)因此,GPTs更适合于解决自动生成句子的语言生成问题。

f3.jpg
图3。GPTs模型中表示之间的关系。在这里,表示一个句子的开始,表示一个句子的结束。

BERT,由Devlin等人开发,8具有以下架构。输入是一个单词序列,它可以是来自单个文档的连续句子,也可以是来自两个文档的连续句子的串联。这使得该模型适用于以一个文本作为输入的任务(如文本分类),以及以两个文本作为输入的任务(如回答问题)。首先,通过输入层,创建一个输入表示序列,表示为一个矩阵H(0).在通过l在转换编码器层中,创建一个中间表示序列,记为Hl

ueq09.gif

最后,根据该位置的最终中间表示,计算出单词在每个位置的概率分布。BERT的预训练被称为掩码语言建模。假设单词序列为ww1w2,,wN.序列中的几个单词被随机屏蔽——也就是说,被更改为一个特殊的符号[掩码]——生成一个新的单词序列cacm6507_a.gif,其中掩码词集记为cacm6507_b.gif.学习的目的是通过计算并最小化以下负对数似然来估计参数,从而恢复掩码词:

eq03.gif

在哪里ϑ为BERT模型和δ的参数接受1或0的值,指示单词是否处于位置是否被蒙面。请注意,掩码语言建模已经是一种不同于传统语言建模的技术。

图4显示了BERT模型中表示之间的关系。每个位置的输入表示由单词嵌入、“位置嵌入”等组成。每个位置上的每个层的中间表示是由下面所有位置上的层的中间表示创建的。单词的预测或生成在每个掩码位置- cf上独立执行。(3)也就是说,BERT是一种双向的语言模型,从两个方向对词序列进行建模。因此,对于输入是一个完整的词序列,输出通常是一个标签或一个标签序列的语言理解问题,BERT可以很自然地应用。

f4.jpg
图4。BERT模型中表示之间的关系。这里表示一个表示整个输入序列的特殊符号。

对预训练语言模型的一个直观解释是,机器已经执行了很多单词接龙(gpt)或词填充(BERT)训练是基于大语料库的训练,从单词中获取各种造句模式,然后从句子中造句,并在模型中表达和记忆这些模式。文本不是由单词和句子随机创建的,而是基于词汇、句法和语义规则构建的。GPTs和BERT可以分别使用转换器的解码器和编码器来实现语言的合成。(组合性是语言最基本的特征,这也是乔姆斯基层次结构中的语法模型。)换句话说,GPTs和BERT在训练前已经获得了相当数量的词汇、句法和语义知识。因此,当在微调中适应特定的任务时,只需少量的标记数据就可以对模型进行细化,从而达到较高的性能。例如,我们发现不同层次的BERT具有不同的特征。底层主要代表词汇知识,中间层主要代表句法知识,顶层主要代表语义知识。131629

预先训练的语言模型(不进行微调),如BERT和GPT-3,包含大量的事实知识。例如,它们可以用来回答诸如“但丁出生在哪里?”这样的问题,并进行简单的推理,如“48加76等于几?”,只要他们从培训数据中获得了知识。3.22然而,语言模型本身并没有推理机制。他们的“推理”能力是基于联想,而不是真正的逻辑推理。结果,他们在需要复杂推理的问题上表现不佳,包括论证推理,38数值和时间推理,37和话语推理。32将推理能力和语言能力集成到自然语言处理系统中是未来的一个重要课题。

回到顶部

未来的前景

当代科学(脑科学和认知科学)对人类语言加工(语言理解和语言生成)的机制了解有限。在可预见的未来很难看到重大突破,而且永远无法突破的可能性也存在。另一方面,我们希望不断推动AI技术的发展,开发出对人类有用的语言处理机器。

神经语言建模似乎是迄今为止最成功的方法。语言建模的基本特征没有改变,即它依赖于定义在包含所有单词序列的离散空间中的概率分布。学习过程是为了找到最优的模型,以便根据交叉熵预测语言数据的准确性是最高的图5).神经语言建模通过神经网络构建模型。其优势在于,它可以利用复杂的模型、大数据和强大的计算,非常准确地模拟人类的语言行为。从Bengio等人提出的原始模型到RNN语言模型和预训练的语言模型,如GPTs和BERT,神经网络的体系结构变得越来越复杂(Cf.,图123.4),而预测语言的能力越来越高(交叉熵越来越小)。然而,这并不一定意味着模型具有与人类相同的语言能力,该方法的局限性也是不言而喻的。

f5.jpg
图5。这台机器通过调整“大脑”内神经网络的参数来模仿人类的语言行为。最终,它可以像人类一样处理语言。

是否有其他可能的发展路径?目前还不清楚。可以预见,神经语言建模方法仍有许多改进的余地。目前的神经语言模型在表示能力和计算效率(从功耗来看)方面与人脑还有很大的差距。一个成年人的大脑只在12w下工作;12与此形成鲜明对比的是,根据作者的说法,训练GPT-3模型需要每天消耗几千千万亿次浮点运算。3.能否开发出更接近人类语言处理的更好的语言模型是未来研究的重要方向。目前仍有许多技术改进的机会。我们仍然可以从脑科学的有限发现中学习。

人类的语言处理被认为主要在大脑皮层的两个脑区进行:布洛卡区和韦尼克区(图6).前者负责语法,后者负责词汇。23脑损伤导致失语症的典型病例有两种。布罗卡区受伤的患者只能说零星的单词而不是句子,而韦尼克区受伤的患者可以构建语法正确的句子,但单词往往缺乏意义。一个自然的假设是,人类的语言处理是在大脑的两个区域并行进行的。是否有必要采用更接近人类的处理机制是一个值得研究的课题。正如乔姆斯基所指出的,语言模型不显式地使用语法,也不可能无限地组合语言,这是人类语言的一个重要属性。将语法更直接地合并到语言模型中的能力将是一个需要研究的问题。

f6.jpg
图6。人类大脑中负责语言处理的区域。

大脑科学家认为,人类语言理解是激活潜意识中相关概念的表征,并在意识中生成相关图像的过程。表征包括视觉、听觉、触觉、嗅觉和味觉表征。它们是视觉、听觉、触觉、嗅觉和味觉内容的概念,通过一个人在成长和发展过程中的经历在大脑的各个部分记住。因此,语言理解与人的经历密切相关。2生活中的基本概念,如猫和狗,是通过传感器的输入通过看、听、触摸等来学习的。听到或看到“猫”和“狗”这些词也会重新激活人们大脑中相关的视觉、听觉和触觉表征。机器能否从大量的多模态数据(语言、视觉、语音)中学习更好的模型,从而更智能地处理语言、视觉和语音?多模态语言模型将是未来探索的重要课题。最近,在这方面的研究有了一些进展——例如,Ramesh等人。28或者Radford等人。27

回到顶部

结论

语言模型的历史可以追溯到100多年前。马尔科夫、香农等人无法预见到他们所研究的模型和理论在后来会产生如此巨大的影响;这对本吉奥来说甚至可能是意想不到的。在未来的100年里,语言模型将如何发展?它们还会是人工智能技术的重要组成部分吗?这超出了我们的想象和预测。我们可以看到,语言建模技术正在不断发展。在未来几年,更强大的模型极有可能取代BERT和GPTs。对于我们来说,我们有幸成为第一代看到这些技术的伟大成就并参与到研究和开发中来的人。

回到顶部

致谢

作者感谢两位匿名审稿人的批判性和建设性的评论。感谢曾岩、王泉的有益参考和重要建议,感谢徐军、张新松、李翔宇的宝贵意见。

回到顶部

参考文献

1.Bengio, Y., Ducharme, R.和Vincent, P.一个神经概率语言模型。在神经信息处理系统的研究进展(2001), 932 - 938。

2.卑尔根,B。比语言更响亮:大脑如何产生意义的新科学。基础图书,纽约,纽约,(2012)。

3.布朗,T.B.等人。语言模型是少有机会的学习者。arXiv: 2005.14165(2020)。

4.乔姆斯基。语言描述的三个模型。《IEEE信息理论汇刊》2, 3(1956), 113-124。

5.Cho, k等人。学习使用RNN编码器-解码器进行统计机器翻译的短语表示。自然语言处理中的经验方法研讨会(2014), 1724 - 1734。

6.K.丘奇,M.利伯曼,V.科尔多尼。会议记录1“标杆:过去、现在与未来”工作坊。计算语言学协会(2021年)。

7.Clark, K. Luong, M.T, Le, Q.V,和Manning, C.D. Electra:将文本编码器训练为鉴别器而不是生成器。arXiv: 2003.10555(2020)。

8.德芙林,张明文,李明文,和图塔诺瓦,K.伯特:深度双向转换语言理解的预训练。在亚太学会北美分会2019年会议记录。计算语言学:人类语言。

9.埃尔曼,j.l。找到时间结构。认知科学14, 2(1990), 179-211。

10.海耶斯,b,马尔科夫链的第一个环节。101年美国科学家, 2(2013), 92。

11.长时间短期记忆。神经计算9, 8(1997), 1735-1780。

12.贾布尔,f,认真思考能消耗更多卡路里吗。科学美国人(2012年7月)18。

13.G. Jawahar, B. Sagot, D. Seddah . BERT学到了关于语言结构的什么?在57th计算语言学协会年会(2019年7月)。

14.Lan, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P.和Soricut, R. Albert:语言表征的自我监督学习的一个lite bert。arXiv: 1909.11942(2019)。

15.刘易斯等人。Bart:去噪序列对序列的预训练,用于自然语言生成、翻译和理解。arXiv: 1910.13461(2019)。

16.刘,n.f.,加德纳,M.,别林科夫,彼得斯,M.E,史密斯,N.A.。语言知识与语境表征的可转移性。arXiv: 1903.08855(2019)。

17.刘勇,刘玉华等。罗伯塔:一种鲁棒优化的伯特预训练方法。arXiv: 1907.11692(2019)。

18.Mikolov, T., Sutskever, I., Chen, K., Corrado, g.s.,和Dean, J.词汇和短语的分布式表示及其构成。神经信息处理系统的研究进展(2013), 3111 - 3119。

19.Mikolov, T., Chen K., Corrado, G., Dean, J.向量空间中单词表示的有效估计。arXiv: 1301.3781(2013)。

20.Nallapati, R., Zhou, B., Gulcehre, C.和Xiang, B.使用序列到序列rnn的抽象文本摘要和超越。arXiv: 1602.06023(2016)。

21.两种语篇驱动的语义语言模型。arXiv: 1606.05679(2016)。

22.彼得罗尼,F.等人。语言模型作为知识库?arXiv: 1909.01066(2019)。

23.平克,S。语言本能威廉·莫罗及其公司,纽约,纽约(1994),第9章。

24.拉斐尔,C.等人。利用统一的文本到文本转换器探索迁移学习的局限性。arXiv: 1910.10683(2019)。

25.A. Radford, Narasimhan, K. Salimans, T.和Sutskever, I.通过生成式前训练提高语言理解能力(2018年)。

26.Radford, A., Wu, J., Child, R., Luan, D., Amodei, D.和Sutskever, I.语言模型是无监督的多任务学习者。开放AI博客18(2019)。

27.Radford, A.等。从自然语言监督中学习可转移的视觉模型。arXiv: 2103.00020(2021)。

28.Ramesh, A.等人。Zero-shot text-to-image一代。arXiv: 2102.12092(2021)。

29.Rogers, A., Kovaleva, O.和Rumshisky, A. bertoology入门:我们所知道的关于BERT是如何工作的。计算语言学协会会刊(2020), 842 - 866。

30.沟通的数学理论。钟系统技术J。27(1948年7月),379-423。

31.尚亮,吕铮,李浩,短文本对话的神经响应机。在53人会议记录理查德·道金斯协会年会计算语言学和7th自然语言处理国际联合会议(2015), 1577 - 1586。

32.沈爱华、米斯提卡、萨利希、李海华、齐杰、李海华、鲍德温、李海华、齐杰。arXiv: 2103.10133(2021)。

33.Sutskever, I., Vinyals, O.和Le, q.v用神经网络进行序列对序列学习。神经信息处理系统进展,2014, 3104 - 3112。

34.Vaswani等人。你所需要的就是注意力。神经信息处理系统进展2017, 5998 - 6008。

35.Xu, K.等。显示、出席和告知:视觉注意下的神经图像标题生成。在实习生。机器学习会议,PMLR(2015年六月),2048 - 2057。

36.杨振华、戴振华、杨玉华、卡波奈尔(J.)、Salakhutdinov (R.)、Le qv . Xlnet:语言理解的广义自回归预训练。神经信息处理系统进展2019, 5754 - 5764。

37.Zhang, X., Ramachandran, D., Tenney, I., Elazar, Y.和Roth, D.语言嵌入捕获尺度吗?arXiv: 2010.05345(2020)。

38.周晓霞,张玉玉,崔丽,黄东。预训练语言模型的常识评估。在人工智能会议论文集345(2020年4月),9733-9740。

回到顶部

作者

李挂lihang.lh@bytedance.com)是中国北京字节跳动公司人工智能实验室的主任。


©2022 0001 - 0782/22/7 ACM

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2022 ACM, Inc.


没有发现记录

Baidu
map