视觉系统给动物两种不同的信息。第一个是他们所看到的世界的模型。我们的视觉系统告诉我们自由空间在哪里(因此,我们可以移动到哪里);什么大什么小;什么是光滑的,什么是粗糙的。
计算机视觉的研究现已产生了非常强大的重建方法。这些方法可以从图像和视频中恢复复杂世界的丰富模型,并对日常生活产生了巨大的影响。如果您看过CGI电影,那么您可能看到过通过其中一种方法恢复的再现。
第二种是用各种抽象层次上的对象来描述世界。我们的视觉系统可以告诉我们某物是动物;它是一只猫;而且是邻居家的猫。计算机视觉很难模仿所有这些技能。我们有非常强大的方法来分类图像,基于两种技术。首先,给定好的特征向量,现代的分类器函数报告一个类,给定一个特征向量,并从数据中学习,是非常准确的。其次,通过适当的结构选择,人们可以学会构建良好的特征,这是卷积神经网络的重要性。这些方法也适用于检测。一个检测对象的方法是为该对象构造一组可能的位置,然后将它们传递给分类器。 Improvements in image classification and detection are so frequent that one can only keep precise track of the current state of the art by haunting ArXiV.
仍然存在一个关键的困难:系统应该报告关于映像的什么信息?识别图像中的每一个物体可能不是一个好主意,因为有很多,但大多数都无关紧要(比如,把左前腿固定在椅子上的螺栓)。所以系统应该主要报告重要的对象。系统现在需要为它报告的每个对象选择一个名称。许多事物可以有相同的名字,因为一个完全由完全不同的事物组成的世界太难处理了。但同样的东西可以有很多名字,选择最好的名字就成了一个问题。例如,当你看到一只天鹅时,告诉它是一只“鸟”并没有什么特别的帮助(鸡被广泛食用),而且你可能会期望它比“天鹅色”更好,因为它可能是哥伦比亚鸟。但当他们看到几只猫时,如果之前没有见过的人报告说“相当大的猫”,他们就会觉得自己的视觉系统在发挥作用。
心理学家认为,有一些基本的类别可以确定一件事的最佳名称。一个事物的基本类别的选择似乎是由它的形状和外观所驱动的。例如,麻雀和鹪鹩可能属于一个基本的鸟类类别,鸵鸟和美洲鸵可能属于不同的类别。从实际的角度来看,这个想法很难使用,因为没有太多关于特定对象的基本层次类别是什么的数据。
在接下来的文章中,作者提供了一种确定图像中对象的基本类别名称的方法。人们使用的术语应该是自然的——人们倾向于这样说。
在接下来的文章中,作者提供了一种确定图像中对象的基本类别名称的方法。人们使用的术语应该是自然的——人们倾向于这样说。例如,人们可以这样描述“国王企鹅”,或“海鸟”,“鸟”或“动物”,但“企鹅”在精确和一般之间给出了一个很好的平衡,是大多数人使用的。作者展示了如何使用现有的语言数据集对一个术语的自然度进行评分。对于所描述的图像,使用的术语也应该是正确的。更通用的术语更有可能是正确的(人们几乎可以将任何东西称为“实体”)。作者展示了如何使用置信评分来平衡术语的可能正确性和其自然性。
识别基本类别的另一个策略是查看人们在描述图像时实际使用的术语。作者通过查看带标题的数据集来寻找经常出现的名词。它们用一组由一个分类器产生的术语来表示图像。然后,他们构建另一个分类器来预测第一个集合中常见的名词。它们要求大多数术语通过加强第二分类器的稀疏性对被预测名词没有贡献;因此,他们可以看到哪些视觉术语倾向于产生哪些名词(如图6所示,名词“tree”是由与植被、灌木等有关的各种专门术语产生的)。其结果是在计算机视觉中常用的艺术术语和知觉心理学的基本类别之间建立了令人兴奋的联系。
数字图书馆是由计算机协会出版的。版权所有©2016 ACM股份有限公司
没有发现记录