你的移动电话可以在国际象棋上打败你,但它能认出马吗?尽管如今的机器布满了摄像头、麦克风和其他传感器,但它们基本上是聋子和瞎子;它们没有与环境互动的感官。与此同时,每天都有大量有价值的感官数据被捕获、传输和廉价存储。电视节目和电影、功能磁共振成像扫描、行星调查、监控录像和数码照片在全球各地的硬盘上堆积如山,闲置着。对于人工组织和访问来说,这一切都太过繁重。有人恰如其分地称之为“数据泛滥”。将分析感官数据的过程自动化并将其转化为可操作的信息是现代工程中最有用也最困难的挑战之一。
我们该如何着手建造能看、能听、能闻、能摸的机器呢?感官任务有各种形式:读书、认人、打网球。把每一个问题作为一个单独的问题来处理是迅速的。然而,关于我们自己的感官有一个显著的事实,那就是它们很容易适应新的环境和任务。我们的感官进化帮助我们在树木、岩石和草地中导航和觅食,也使我们能够与人交往。尽管有这样的历史,我们仍然可以训练自己阅读文字,从望远镜图像中识别星系,驾驶高速行驶的车辆。发现感觉处理的一般规律和原理也许有一天会让我们为机器设计和建造灵活的、适应性强的感觉系统。
在接下来的论文中,Torralba, Murphy和Freeman关注视觉识别。他们探索了一个普遍有效的原则:使用语境。作者提出了一个优雅而引人注目的演示,说明当图像分辨率较低,导致物体的图像模糊时,背景对于识别物体是至关重要的。情境可能在视觉识别中是有用的,这是相当直观的。然而,要设计一个利用上下文的机器,我们必须首先定义什么是上下文,确切地说应该如何测量它,以及如何使用这些测量来识别物体。
对象的语境是一种丰富而复杂的现象,不易定义。物体被发现的场景(郊区街道、厨房)的身份可以被认为是它的上下文。在场景中出现的表面和物体(两辆汽车,一个行人,一个消防栓,一个建筑的立面)的身份,以及这些表面和物体的相互位置,也被认为是上下文。天气、光照条件、时间、历史时期和其他情况也是如此。从哪里开始呢?应该测量什么?人们可能会担心,在能够定义和计算上下文之前,视觉的整个问题必须得到解决。到目前为止,大多数研究人员都回避了这个令人困惑的“先有鸡还是先有蛋”的问题,这并不奇怪。
发现感觉处理的一般规律和原理也许有一天会让我们为机器设计和建造灵活的、适应性强的感觉系统。
该方法避免了对显式场景语义信息的计算。相反,他们开始考虑容易计算的、与上下文相关的像图像一样的量。受我们对人类视觉系统所知的启发,他们计算了应用于图像的类小波线性滤波器输出的统计数据。这些统计数据捕获了场景视觉统计数据的某些方面,而这些方面又表明了场景的整体性质:例如,森林中的长而垂直的结构,开阔草地中的稀疏的水平结构。因此,过滤器统计数据与场景类型相关。Torralba、Murphy和Freeman将他们的测量集合称为“主旨”(gist),这是一个心理学术语,用来表示场景的整体视觉意义,这已被证明是人类观察者能很快感知到的。1,2
作者发现,令人惊讶的是,他们基于过滤器的要点非常擅长预测场景中可能出现的给定对象类别的实例数量,以及它们可能的位置y设在。将这些信息与来自每个位置独立运行的对象检测器的信息相结合,生成给定类的对象在位置(x;y).这比单独使用探测器更可靠。看起来是这样的最后开放季节的视觉环境。
1.我,比德曼,感知现实世界的场景。科学177(1972), 7780。
2.飞飞,L.,艾耶,A.,科赫,C.和佩罗纳,P.我们瞥一眼现实世界的场景能感知到什么?视觉杂志, 15347362(2007), 129。
©2010 acm 0001-0782/10/0300 $10.00
允许为个人或课堂使用本作品的全部或部分制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。
数字图书馆是由计算机协会出版的。版权所有©2010 ACM, Inc。
没有发现记录