编程计算机自动解释图像的内容是人工智能和计算机视觉领域长期面临的挑战。这种困难在计算机视觉研究早期的一件众所周知的轶事中得到了回应:麻省理工学院的一名本科生被要求用整个夏天的时间让一台计算机描述它从摄像机获得的图像中“看到”了什么。35近50年过去了,研究人员仍在努力解决同样的问题。
场景可以用多种方式描述,包括关于对象、区域、几何形状、位置、活动的细节,甚至是非视觉属性(如日期和时间)。例如,一个典型的城市场景图1)可以通过指定前景汽车对象和背景草地、天空和道路区域的位置来描述。或者,也可以将图像概括为街景。我们希望计算机能够推理场景的所有这些方面,并提供粗略的图像级标记和详细的像素级注释,描述场景的语义和几何形状。早期的计算机视觉系统试图通过使用单一的统一模型来联合描述场景的所有方面。然而,问题的难度很快压倒了这种统一的方法,直到最近,对场景理解的研究沿着许多不同的轨迹进行。
没有发现记录