我们已经看到了计算视觉识别的显著进展,生产的系统可以将物体分类到数千个不同的类别,并且越来越精确。然而,一个受到相对较少关注的问题是“识别系统应该输出什么标签?”这篇论文着眼于预测类别标签的问题,模仿人类观察者如何命名对象。这一目标与心理学家在上世纪七八十年代首次提出的入门级类别概念有关。我们将这些开创性的想法扩展到大规模研究人类命名,并学习预测入门级类别的计算模型。这项工作的实际应用包括改进以人为中心的计算机视觉应用,例如为图像或基于文本的图像搜索自动生成自然语言描述。
计算机视觉识别已经开始发挥作用。虽然还远未解决,但分析图像的算法现在已经进步到可以以合理的精度识别或定位数千种目标类别。3.,14,24,25虽然我们可以预测一个物体的许多相关标签中的任何一个,但“什么?应该这个问题在大规模的视觉识别中变得越来越重要。例如,如果一个分类器足够幸运地将示例放入图1对,它可能输出天鹅座Colombianus,而大多数人可能会简单地说天鹅。我们的目标是学习从特定的百科全书术语(天鹅座Colombianus)到人们可能如何引用一个给定的对象(天鹅).
这些习得的映射可以为手工构建的语言资源(如WordNet)添加一种新的结构。9WordNet列举了大量的英文名词,这些名词通过关系加以扩充,包括超义(是一个连接)将更一般的类别,例如雀形目,连接到更具体的类别,例如火鸟(火鸟是一种雀形目)。我们的模型可能会了解到,火鸟的图像更有可能被描述为“鸟”,而不是更专业的术语,如“雀形目”。当计算机视觉系统试图识别特定图像中许多非常具体的对象类型时,我们的模型允许映射到人们可能用于描述所描述对象的词汇。对于最终用户应用程序,这些类型的输出可能比非常精确但过于具体的视觉分类系统的输出更有用。这对于以文本为媒介的人机交互尤其重要,例如基于文本的图像搜索。
我们的工作灵感来自于之前的研究基本和入门级类别由包括罗施在内的心理学家制定23科斯林和。13罗斯奇定义基层分类指那些处于概括性最高层次的范畴,其成员仍然具有许多共同的属性而具有较少的独特属性。一个基本级别类别的例子是鸟大多数实例都有相同的属性,比如羽毛、翅膀和喙。下属,更具体的类别,如美国罗宾将拥有共享更多属性的成员,如形状、颜色和大小。超纵坐标,更一般的类别,比如动物拥有共享较少属性且表现出更多可变性的成员。Rosch通过人体实验研究基本类别,例如,要求人们列举给定类别的共同属性。
Jolicoeur等人的工作。13进一步研究了人们识别类别的方式,定义了概念入门级类别。入门级类别本质上是人们自然会用来识别对象的类别。一个对象的原型化程度越高,它就越有可能在基本级别的类别中有入口点。对于不太典型的对象,入口点可能位于较低的抽象级别。例如一个美国罗宾或者一个企鹅两个成员是相同的基本水平吗鸟类别。然而,美国罗宾是更典型的,与其他鸟类共享许多特征,因此它的入门级类别与它的基本级别类别一致鸟,而企鹅将在较低的抽象级别上进行识别(参见图2).
因此,虽然物体是许多类别的成员,例如,埃德先生是一匹帕罗米诺马,但也是一匹马,一匹马,一种奇趾有蹄类动物,一种胎盘哺乳动物,哺乳动物,等等,大多数人看着埃德先生会倾向于称他为马他的入门级类别(除非他们是这部剧的粉丝)。本文主要研究对象命名问题入门级类别。我们考虑两个相关的任务:(1)学习映射细粒度的/百科全书类,例如WordNet中的叶节点9人们可能会怎么称呼他们(入门级类别)和(2)学习从数以千计的噪声计算机视觉分类器/检测器对图像的评估输出映射到一个人可能称为描绘对象的东西。
评估表明,我们的模型可以有效地模拟人类的命名选择。此外,我们展示了使用噪声计算机视觉对图像内容的估计,我们的系统可以输出比原始视觉分类器预测或使用最先进的分层分类系统的结果更接近人类注释的单词6它可以在不同的抽象级别上输出对象标签,从非常具体的术语到非常一般的类别。
1.1.大纲
本文的其余部分组织如下。第二部分是相关工作的总结。第三部分介绍了一种基于深度卷积神经网络(CNN)激活的大规模图像分类系统。在第4节中,我们学习输入语言概念和入门概念之间的翻译。在第5节中,我们提出了两个模型,它们可以将图像作为输入,并预测所描述对象的入门级概念。最后,在第6和第7节中,我们提供了实验评估和结论。
的问题入门级类别与最近为图像生成自然语言描述的工作直接相关。8,11,15,16,19,21在这些论文中,目标是自动生成描述图像或视频内容的自然语言。我们将讨论这个问题的一个具体方面,即如何以类似人类的方式在图像中命名对象。以前直接根据计算机视觉预测构建图像描述的方法经常导致不自然的结构,例如,“这里我们看到一个电视显示器和一个窗口。”15其他方法则通过对人类编写的关于其他视觉上类似对象的文本进行抽样,间接地处理命名选择。16,17
在技术层面上,我们的工作与邓等人最近的工作有关。6这试图“对冲”视觉内容的预测最优在WordNet语义层次结构中后退。例如,给定一张图片狗,一个嘈杂的视觉预测者可能很容易把这误认为是一个猫。因此,输出一个更一般的预测,例如,动物,在视觉模糊的情况下,有时可能对整体性能更好。一个关键的区别是,我们的方法在WordNet层次结构上使用了一个奖励函数,该函数沿着从根到叶的路径是非单调的,因为它是基于单词使用模式,而不是基于复杂性。另一个不同之处在于,我们使用了最近的基于卷积神经网络特征的基础视觉分类器。12我们的方法还允许从WordNet叶节点学习映射,l,到自然的词汇选择,没有沿着一条路径l到根,“实体”。在评估中,我们的结果明显优于“对冲”技术6因为尽管它在最大化分类精度方面是最优的,但在人们如何描述图像内容方面却不是最优的。
我们的工作也与日益增长的挑战有关,即利用不断增加的预先训练的识别系统,从而避免在开发新应用程序时总是“从头开始”。随着大型标记图像数据集的出现,包括ImageNet5WordNet层次结构的一个子集有超过15,000,000个标记图像,大量的计算工作致力于构建基于视觉的识别系统。如果不好好利用CPU周,那就太浪费了,10,14个月,4,6甚至几千年18投资开发和培训这种识别模型。然而,对于任何特定的最终用户应用程序,在特定数据集中标记的对象、场景和属性的类别可能不是最有用的预测。我们的工作的一个好处是探索了如何将一个用标签词汇表(WordNet叶节点)训练的视觉系统的输出翻译成新词汇表(常用的视觉描述性名词)中的标签的问题。
我们提出的方法考虑了结构和信息的几个来源:WordNet的结构,在网络上使用单词的频率,2大规模视觉识别系统的输出,12以及大量成对的图像和文本数据。特别地,我们使用了SBU标题照片数据集21它包含100万张带有自然语言标题的图像,作为自然图像命名模式的来源。通过整合所有这些资源,我们能够在比以前更大的范围内研究入门级类别。
2.1.预测入门级类别的挑战
乍一看,寻找入门级类别的任务似乎是寻找一个语言问题上义词任何给定的词。虽然入门级类别和超级词之间有相当大的概念联系,但有两个显著的区别:
事实上,上述两点都与物体的视觉信息有关,因为视觉上相似的物体更有可能属于同一入门级类别。在这项工作中,我们提出了第一个广泛的研究:(1)在将百科式视觉类别翻译为人们常用的自然名称的背景下,描述入门级类别的特征;(2)提供了在语义词知识指导下,从大规模图像语料库推断入门级类别的方法。
我们利用基于深度学习的视觉特征的最新进展来训练大量叶节点对象分类的视觉分类器。特别是,我们使用来自Caffe框架的预训练CNN模型12基于Krizhevsky等人的模型,14接受来自2012年imagenet大规模视觉识别挑战的1000个imagenet类别的训练。该模型由一个具有多层的前馈神经网络组成,每一层在相邻层的单元之间具有不同的连接水平。网络的最后几层由完全连接的层组成,其中给定层中的所有单元都连接到后续层中的所有单元。网络的输出层由对应于分类任务的每个类别的1000个单元组成。多纳休等。7结果表明,激活一些中间层,特别是在输出层之前的完全连接层,对于各种其他识别任务是一个有用的通用图像表示。
我们同样计算该网络最后一个完全连接层的4096个激活,并使用这些作为特征,为ImageNet中的7404个叶级类别训练一个线性支持向量机。我们还使用一个验证集来使用Platt缩放校准每个支持向量机的输出分数。22这7404个视觉分类器将用于直接预测图像内容(章节5.1)或训练入门级视觉预测器(章节4.2和5.2)。
为了理解人们如何命名物体,我们的第一个目标是学习百科式概念(ImageNet叶子类别,如吊兰辉钼石)和更多概念之间的映射自然(例如,蘑菇)。在4.1节中,我们提出了一种基于WordNet层次结构和web规模语料库中单词的频率的方法。在第4.2节中,我们采用了一种使用从成对的图像标题数据集学习到的视觉识别模型的方法。
4.1.基于语言翻译
作为基准,我们首先考虑一种仅依赖于基于语言的信息的翻译方法:来自WordNet的分层语义树9以及来自谷歌Web 1T语料库的文本统计数据。2我们假设,从网络上大量文本计算出的术语频率反映了概念的“自然性”。我们使用谷歌Web 1T语料库的n克计数2作为自然的代表。特别是对于synsetw,我们把自然量化为,(w)中最常用同义词的计数的对数w。作为一个特定类别的可能翻译概念,,我们考虑所有节点,w在的继承的同义词结构(WordNet路径上的所有同义词集w根)。
我们为一个类别定义一个转换函数,(,),地图到一个新节点w,这样w最大化地权衡自然,(w)和语义接近性,(w,),测量节点之间的距离和节点w在WordNet的缩略词结构中:
(在哪里)是(继承的)超缩略语集合到根,包括.例如,给定一个输入类别=王企鹅我们考虑所有的类别都是根据其继承的超级词集合来考虑的,例如,企鹅,海鸟,鸟,动物(见图3).对这个概念的一个理想预测是企鹅。我们用直线搜索来寻找最优方案,它控制着我们对自然性和语义接近性的关心程度,基于一组次级类别、入门级类别对D= (x我y我)通过众包收集,以最大化我们模型预测的正确翻译数量:
其中1[·]为指标函数。我们展示了两者的关系和翻译的准确性,(D,),在图4,其中红线显示了预测同义词集中大多数人使用的单词的准确性,而青色线显示了预测同义词集中标注者使用的任何单词的准确性。当我们增加, (D,)最初增加,然后减少,因为过多的泛化或特异性降低了预测的自然性。例如,从大铁钳将来海豚对“自然”是有益的,但一般化到“实体”会减少“自然”。
我们的实验也支持这样的观点入门级类别停留在一个有间断的抽象层次上。如果超出这个抽象级别,我们的预测会突然变得相当糟糕。罗斯奇23的确,在基本类别的背景下认为,分类的基本切割恰恰发生在这些不连续处,在这些不连续处有大量信息丰富的功能和感知属性。
4.2.Visual-based翻译
接下来,我们尝试使用预先训练的视觉分类器来改进输入概念和入门概念之间的转换。对于给定的叶集,,我们抽样一套n= 100张图片来自ImageNet。对于每一个图像,我,我们预测一些潜在的入门名词,N我,使用预先训练的视觉分类器,我们将在第5.2节进一步描述。我们使用这组标签的并集N =1N2...Nn作为synset的关键字注释用a来排序术语频率-反文档频率(TFIDF)信息检索措施。这种排序方法提高了我们100张图片集合中频繁预测的标签,同时降低了在不同类别的所有实验中频繁预测的标签的重要性。我们为每个节点挑选排名最高的名词,,作为其入门级的范畴翻译。
中的基于语言的翻译(Language-based Translation)方法和人工注释器提供的映射的比较表1.我们将在评估部分(第6.1节)解释人工注释的集合。
在第4节中,我们提出了一个语言概念之间的翻译模型,例如,大铁钳将,改为更自然的对象名称,例如,海豚。本节的目标是探索可以将图像作为输入并预测所描述对象的入门级标签的方法。我们提出的模型是:(1)一种方法,将来自文本统计数据的“自然度”度量与在叶节点上计算并推断出内部节点的视觉内容的直接估计相结合(第5.1节);(2)一种方法,直接从带有相关标题的大量图像集合中学习入门级类别预测的视觉模型(第5.2节)。
5.1.语言引导命名
在我们的第一个图像预测方法中,我们估计图像的内容,我,使用第3节中描述的预训练的视觉模型。这些模型预测在ImageNet (WordNet)层次结构中存在或不存在7404个叶级可视类别。遵循“套期保值”的方法,6我们通过累积一个节点以下的所有预测来计算层次结构中内部节点的视觉内容的估计:
在哪里Z()是node下所有叶节点的集合而且(,我)是一个经过训练的用于识别类别的线性支持向量机的platt-scale决策值的输出.类似于我们在4.1节中的方法,我们为ImageNet层次结构中的每个节点定义了一个权衡函数:(n-克计数)和特异性(在WordNet层次结构中的相对位置):
在哪里(w的文本语料库中名词和复合名词的对数计数全局的标题下的数据集,21而且(w)为上限值(w,)等于节点在WordNet层次结构中的最大高度w。我们用参数表示这种权衡.
对于图像的入门级类别预测,我们希望最大化“自然度”和视觉内容估计。例如,基于文本的“自然性”将告诉我们这两者猫而且天鹅是良好的入门级类别,但自信的视觉预测天鹅座Colombianus因为图像告诉我们这一点天鹅是一个更好的入门级预测吗猫的形象。
因此,对于一个输入图像,我们希望输出一组对“自然度”和内容估计得分都有较大预测的概念。对于我们的实验,我们输出顶部K最高的WordNet同义词集fnat分数:
当我们改变我们期望类似于概念翻译(4.1节)的行为,即调优在试图保持“自然”的同时,控制具体程度。我们将我们的框架与“对冲”技术进行比较6的不同设置.对于并排比较,我们修改对冲以输出顶部K基于评分函数的同步集。在这里,工作词汇表是这个测试集中每个方法的预测标签输出的唯一集合。结果表明(图5),在不同的参数设置下,我们始终如一地在预测入门级类别时获得比对冲高得多的精确度。6我们还在性能上比以前的工作获得了额外的收益20.的特定于数据集的文本统计信息全局的标题下的数据集而不是更普通的谷歌网络1 t语料库。
5.2.视觉引导的命名
在前一节中,我们依靠WordNet结构计算图像内容的估计值,特别是内部节点。然而,这并不总是一个很好的内容预测的度量标准,因为:(1)WordNet层次结构没有编码关于对象之间的一些语义关系(即功能或上下文关系)的知识,(2)即使有7404个ImageNet叶节点的广泛覆盖,我们仍然缺少许多潜在的重要的入门级类别的模型,这些类别不在叶级别。
作为一种替代方案,我们可以从人们提供的入门级标签(以视觉描述性图像标题中的名词形式出现)的数据中直接训练入门级类别的模型。我们假设这些名词代表了入门级标签的例子,因为它们已经被人们自然地注释,以描述图像中所呈现的东西。对于这个任务,我们利用SBU标题照片数据集21它包含100万年标题图片。我们把这个数据集转换成一个集合D= {X(我),Y(我)|X(我)X,Y(我)Y},X= (0 - 1)年代是估计视觉内容的矢量吗年代= 7404 ImageNet叶节点类别和Y= [0, 1]d是一组二进制输出标签d目标类别。输入内容估计由基于深度学习的支持向量机预测提供(在第3节中描述)。
培训我们d目标类别,我们得到标签Y用POS-tagger从上百万条配文中1和定义Y(j)= {yij}这样:
POS-tagger通过只选择单词作为名词使用的实例,帮助清除一些由多义性引起的词义歧义。目标类别的数量,d,是通过对该数据集中最常见名词的学习模型从数据中实验确定的。这为我们提供了一个目标词汇表,它既可能包含入门级类别(因为我们希望入门级类别名词经常出现在我们的视觉描述中),又包含足够的图像来训练有效的识别模型。我们使用多达10,000张图像来训练每个模型。由于我们使用的是来自真实世界数据的人类标签,我们的目标词汇表中单词的频率遵循幂律分布。因此,对于少数最常出现的名词概念,我们只有非常大量的训练数据。具体来说,我们学习了线性支持向量机,然后对每个目标概念进行普拉特缩放。我们一直d= 1169个表现最好的模型。我们的得分函数f支持向量机对于一个目标概念我然后:
在哪里我模型参数是用来预测概念的吗我,一个我而且b我是否为每个目标概念学习普拉特缩放参数我在一个持有的验证集上。
我们学习了参数我通过最小化铰链损失的平方l1后者提供了一种自然的方式来建模输入和输出标签空间之间的关系,鼓励稀疏性(例子在图6).我们发现c= 0.01,为我们的问题产生良好的结果,并使用这个值来训练所有单独的模型。
使用ImageNet层次结构来聚合可视化概念的估计(第5.1节)的缺点之一是它忽略了概念之间更复杂的关系。在这里,我们用数据驱动的方法隐式地发现了这些关系。比如一个概念树与各种类型的鸟类和其他生活在树上的动物(看到了吗图6).
鉴于这一庞大的图像数据集具有嘈杂的视觉预测和文本标签,我们设法学习到相当好的高级内容预测器,即使是对于类内变化相对较高的类别(例如,女孩,男孩,市场,房子)。
我们评估了我们提出的两个命名任务的结果:学习从百科概念到入门概念的翻译(章节6.1),以及预测图像中对象的入门概念(章节6.2)。
6.1.评估翻译
我们使用Amazon Mechanical Turk将ImageNet同步集的源翻译集中到入门级类别中D= {x我y我| x我是叶节点,y我这个词}。我们的实验向用户展示了从ImageNet同步集采样的2 × 5的图像数组,x我,并要求用户提供标签,y我,为所描绘的概念。获得500个ImageNet同步集的结果,每个任务跨8个用户聚合。我们发现500个概念中的447个在用户之间是一致的(衡量标准是8个用户中至少有3个同意),这表明即使每个同义词集有许多潜在的标签(例如,Sarcophaga carnaria可以被认为是苍蝇,双翅昆虫,昆虫,节肢动物等),人们对特定的入门级类别有强烈的偏好。
我们展示了我们学习概念翻译的每一种方法的样本结果表1.在某些情况下,基于语言的翻译是失败的。例如,野翁之类(一种鸟)翻译成“聊天”很可能是因为“聊天”最常见的用法被夸大了计数。当基于视觉的翻译学会高度重视上下文词汇时,例如“浮潜”、“水”或“非洲蜜蜂”、“花”,即使我们试图使用TFIDF解释常见的上下文词汇,它也会失败。最后,即使是人类也不总是正确的,例如“美洲Rhea”看起来像鸵鸟,但从分类上来说却不是鸵鸟。即使是像“土拨鼠”这样的种类,大多数人也叫它“松鼠”。总的来说,我们的基于语言的翻译(第4.1节)与人工提供的翻译的一致性为37%,基于视觉的翻译(第4.2节)的一致性为33%,这表明翻译学习是一项重要的任务。这个实验扩展了心理学之前的研究。13,23廉价和简单的在线众包使我们能够为比以前的实验更大的(500)个概念集合收集这些标签,并为更大的ImageNet同步集集合学习泛化。
6.2.评估图像入门级预测
我们通过评估我们在Amazon Mechanical Turk上预测用户与图像自由关联的名词的能力,来衡量我们提出的入门级类别图像预测方法的准确性。测试集包含从百万图像数据集中随机选择的1000张图像,对结果进行评估。我们还收集了另外2000张图片的注释,这样我们就可以调整模型中的权衡参数。该测试集与用于学习预先训练的视觉模型的图像集完全分离。对于每张图片,我们指导MTurk上的三个用户写下与图片内容相关的任何名词。因为这些注释是自由关联的,我们观察到在我们的评估集中有3610个不同的名词。这使得名词预测非常具有挑战性!
为了进行评估,我们测量了我们预测与Turkers(图尔克斯)的图像相关的所有名词的能力。图7),以及我们能多好地预测由特克人(至少两个特克人分配的,图7 b).作为参考,我们计算了一个注释者与其他两个注释者的精确度,并发现在我们的测试集中,当与Turkers商定的名词集相比,人类能够预测之前的注释者标记的东西,精确度为0.35。
结果显示了在我们的测试集中预测的精度和召回率,比较:叶节点分类性能(平面分类器),“对冲”的输出,6以及我们提出的入门级类别预测器(语言指导,第5.1节和视觉指导,第5.2节)。对于这项具有挑战性的任务,测试集上的性能是令人钦佩的。在这两个数据集上,我们发现视觉引导的命名模型(章节5.2)比语言引导的命名模型(章节5.1)表现更好。此外,我们显著优于叶节点分类和“对冲”技术。6我们展示了我们的方法的样本输出图像K= 5图8.
我们已经探索了将百科全书式的概念映射到入门级概念的模型,以及预测图像中描述的物体的自然名称的模型。结果表明,我们推断的概念翻译是有意义的,我们的模型为预测入门类别(人们用来命名图像中描绘的物体的名词)提供了第一步。这些方法可能有助于许多不同的终端用户应用程序,这些应用程序需要对人类使用有用的识别输出,包括与描述生成和从复杂文本查询中检索图像相关的任务。
这项工作得到了NSF职业奖#1444234和NSF奖#1445409的部分支持。
1.Bird, S. Nltk:自然语言工具包。在COLING/ACL 2006互动演讲会议记录(2006年7月)。计算语言学协会,悉尼,澳大利亚,6972。
2.Brants, T. Franz, A. Web 1t 5克版本1。在语言数据联盟(LDC)(2006),语言数据协会,费城。
3.Dean, T., Ruzon, M.A, Segal, M., Shlens, J., Vijayanarasimhan, S., Yagnik, J.在一台机器上快速、准确地检测100,000个对象类。在2013年IEEE计算机视觉与模式识别会议(2013年6月),18141821。
4.邓杰,伯格,a.c.,李凯,李芳芳。对一万多种图片分类告诉了我们什么?在欧洲计算机视觉会议(ECCV), Daniilidis, Kostas和Maragos, Petros和Paragios, Nikos,编。卷6315计算机科学课堂讲稿(2010),施普林格,柏林,海德堡,7184。
5.邓军,董伟,苏彻,李丽娟。,Li, K., Fei-Fei, L. ImageNet: A large-scale hierarchical image database. InIEEE计算机视觉与模式识别会议(CVPR), 2009(2009年6月),248255。
6.邓杰,克劳斯,J,伯格,a.c.,飞飞,L.对冲你的赌注:优化精度-特异性在大规模视觉识别的权衡。在计算机视觉与模式识别(CVPR), 2012(2012年6月),34503457。
7.多纳修,贾,杨,维尼亚尔斯,霍夫曼,J,张,N,曾,E,达瑞尔,T.低咖啡因:通用视觉识别的深度卷积激活特征,2013。arXiv预印本arXiv: 1310.1531。
8.Farhadi, A., Hejrati, M., Sadeghi, M.A., Young, P., Rashtchian, C., Hockenmaier, J., Forsyth, D.每一张图片都在讲述一个故事:为图片生成句子。在欧洲计算机视觉会议(ECCV), Daniilidis, Kostas和Maragos, Petros和Paragios, Nikos,编。卷6314计算机科学课堂讲稿(2010),施普林格,柏林,海德堡,1529。
9.编辑、C。。一个电子词汇数据库。麻省理工学院出版社,剑桥,马萨诸塞州,1998年。
10.Felzenszwalb, P., Girshick, R., McAllester, D., Ramanan, D.用辨别训练的基于部分的模型进行对象检测。IEEE反式。模式肛门。马赫。智能。32, 9(2010年9月),16271645。
11.Hodosh, M., Young, P., Hockenmaier, J.作为排名任务的图像描述框架:数据,模型和评价指标。j . Artif。Int。47》, 1(2013年5月),853899。
12.贾勇。卡菲:一种用于快速特征嵌入的开源卷积体系结构,2013。http://caffe.berkeleyvision.org/.
13.乔利科,P,格拉克,文学硕士,科斯林,S.M.图片和名字:建立联系。认知心理学。Cogn。Psychol。16,(1984), 243275, 1984。
14.Krizhevsky, A., Sutskever, I., Hinton, G.用深度卷积神经网络进行Imagenet分类。在神经信息处理系统的研究进展, F.佩雷拉,C.J.C. Burges, L. Bottou和K.Q. Weinberger主编。(2012), Curran Associates, Inc., 10971105。
15.Kulkarni, G., Premraj, V., Ordonez, V., Dhar, S., Li, S., Choi, Y., Berg, A., Berg, T. Babytalk:理解和生成简单的图像描述。IEEE反式。模式肛门。35台机器智能。, 12(2013年12月),28912903。
16.库兹涅佐娃,P., Ordonez, V., Berg, A., Berg, t.l., Choi, Y.自然图像描述的集体生成。在计算语言学协会, 2012年。
17.库兹涅佐娃,P., Ordonez, V., Berg, T., Choi, Y. Treetalk:用于图像描述的树的组成和压缩。反式。Assoc。第一版。语言学家。, 1(2014), 351362。
18.Le, Q, Ranzato, M., Monga, R., Devin, M., Chen, K., Corrado, G., Dean, J., Ng, A.使用大规模无监督学习构建高级别功能。在29人会议记录th国际机器学习会议(ICML12)John Langford和Joelle Pineau主编。(爱丁堡,苏格兰,GB, 2012年7月),Omnipress,纽约,纽约,美国,8188。
19.M. Mitchell, Han, X., Dodge, J., Mensch, A., Goyal, A., Berg, A., Yamaguchi, K., Berg, T., Stratos, K., Daumé, H. III。从计算机视觉检测中生成图像描述。在计算语言学协会欧洲分会第十三次会议论文集(2012年4月),计算语言学协会,阿维尼翁,法国,747756。
20.Ordonez, V., Deng, J., Choi, Y., Berg, a.c., Berg, T.L.。从大规模图像分类到入门级分类。在2013年IEEE计算机视觉国际会议(2013年12月),27682775。
21.奥多涅斯,V.,库尔卡尼,G.,伯格,T.L. Im2text:用100万张加了标题的照片描述图像。在神经信息处理系统的研究进展, J.肖-泰勒,R.S.泽梅尔,P.L.巴特利特,F.佩雷拉和K.Q.温伯格主编。(2011),柯伦咨询公司,11431151。
22.支持向量机的概率输出和与正则化似然方法的比较。在大余量分类器的研究进展(1999),麻省理工学院出版社,6174。
23.分类原则。在认知和分类, E.罗施和B.B.劳埃德编。(1978), 2748。
24.Simonyan, K., Zisserman, A.用于大规模图像识别的非常深度卷积网络,2014年9月。arXiv预印本arXiv: 1409.1556。
25.Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., angelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A.深入卷积,2014年9月。arXiv预印本arXiv: 1409.4842。
本文原题为“从大规模图像分类到入门级分类”,发表于计算机视觉国际会议, 2013年12月,IEEE/CVF。这篇论文的后一个版本题为“预测入门级类别”,并提交给了国际计算机视觉杂志马尔奖特刊。2014年11月,施普林格。
图1。从基于WordNet的对象类别预测到人们可能称之为描述对象的示例翻译。
图2。一个美国罗宾它是一种更典型的鸟吗入门级类别与它一致基层分类企鹅是一种不那么典型的鸟类入门级类别在较低的抽象级别上。
图3。我们的第一个分类翻译模型使用WordNet层次结构来查找接近叶节点概念(语义距离),基于其n-gram频率,具有较大的自然度得分。绿色箭头表示与这个示例语义层次结构中每个叶节点的入门级类别相对应的理想类别。
图4。参数之间的关系翻译的准确性,(D,),根据最常见的人类标签(红色)或任何人类标签(青色)进行评估。
图5。对于对冲方法(红色)和使用来自通用谷歌Web 1T数据集(红色)和SBU标题数据集(第5.1节)的文本统计的语言指导命名方法,平均精度一致性和工作词汇量大小(在1000张图像集上)之间的关系。我们使用K= 5从SBU标题数据集中生成该图和1000张图像的随机集合。
图6。入门级类别树在用我们的噪声数据训练支持向量机后,得到相应的顶部加权叶节点特征,以及根据叶节点的任意分类分组的权重的可视化。植被(绿色)、鸟类(橙色)、乐器(蓝色)、建筑物(棕色)、哺乳动物(红色)和其他(黑色)。
图7。使用top时不同入门级预测方法的精度-召回曲线K分类预测K= 1,3,5,10,15,20,50。(a)使用所有人类标签的联合作为基本事实的评估;(b)只使用至少两个用户同意的标签集。
图8。大型分类系统输入图像的分类预测和我们使用语言和视觉引导模型的翻译输出。第一列包含人们与图像相关的名词。我们用绿色突出显示人们也提到的预测名词。请注意,干燥窑是一种用来晾晒啤酒花的农场建筑吗别墅是一种俄罗斯农场建筑。
数字图书馆是由计算机协会出版的。版权所有©2016 ACM, Inc.
没有发现记录