acm-header
登录

ACM通信

研究突出了

技术视角:深度挖掘人才


当微软在2010年11月推出Xbox 360 Kinect时,它立即获得了成功。通过Kinect,用户可以通过自然的肢体动作和指令来控制Xbox深度相机这就实现了手势识别。与传统相机测量每个像素位置的颜色不同,深度相机返回到场景中那个点的距离。深度摄像头可以很容易地将Xbox用户从房间背景中分离出来,并减少颜色变化带来的复杂性,例如服装。

虽然深度摄像头在Kinect的成功中所扮演的角色是众所周知的,但不太为人所知的是支撑Kinect手势识别能力的创新计算机视觉技术。下面这篇由Shotton等人撰写的文章描述了一种具有里程碑意义的计算机视觉系统,该系统拍摄一张包含一个人的单深度图像,并在3D中自动估计这个人的身体姿势。这种姿态估计的新方法是Kinect成功的关键。

定义Kinect架构的三个重要思想是:通过检测跟踪、数据驱动学习和区分部件模型。这些想法源于过去10年计算机视觉界的目标识别和跟踪研究。他们在Kinect上的发展已经导致了一些令人兴奋的和创新的功能表示和训练方法的工作。由此产生的系统是一个戏剧性的改进比以前的艺术状态。

为了识别用户的手势,Kinect必须在一系列深度图像中跟踪用户的动作。Kinect架构的一个重要方面是,身体姿势在每一帧中都是独立检测的,不需要结合前一帧的信息。这由检测跟踪方法具有更强的稳健性的潜力,因为随着时间的推移所犯的错误不太可能累积。它是由一个非常有效和可靠的解决方案,以姿态估计问题。

与其他视觉问题一样,位姿估计的挑战在于可靠地测量所需的变量,同时不受其他可变性来源的影响。人体姿态由关节角向量描述。例如,当你弯曲手肘时,你改变了一个关节角度。然而,在一系列深度图像中,你肘部的外观受到许多因素的影响:你对相机的位置和方向,你所穿的衣服,你的身材是瘦还是结实,等等。另一个挑战来自大量的姿态变量。大约需要30个关节角来描述人体的基本结构。如果每个关节只能有5个位置,那么结果就是530.可能的姿势。幸运的是,关节在协调运动时是耦合的,许多可实现的姿势,如那些在瑜伽中发现的,很少在一般情况下遇到。

作者采用数据驱动学习来解决姿势和外观的巨大变化。动作捕捉数据用来描述可能的姿势空间:演员表演游戏中使用的姿势(例如,跳舞或踢腿),并测量他们的关节角度,从而得到10万个姿势的数据集。给定一个姿态,通过将姿态转移到角色模型并渲染服装和头发,可以生成一个模拟的深度图像。通过改变身体类型和尺寸,并对不同的服装和发型进行采样,作者自动获得了一个巨大的深度图像训练数据集。

最后一个想法是使用有识别力的部分模型来表现身体的姿势。部分是至关重要的。它们将姿态预测问题分解为一系列独立的子问题:给定一个输入深度图像,每个像素都用其对应的部分进行标记,并将这些部分分组成关于关节位置的假设。该方法可以独立处理每个像素,从而利用Xbox GPU获得实时性能。巧妙的功能设计提高了这种效率。

Kinect的影响力远远超出了游戏市场。在机器人领域,它已经成为一种流行的传感器,其低成本和支持人机交互的能力非常有吸引力。一项对2012年两个主要机器人会议(IROS和ICRA)的调查显示,在1,600多篇论文中,9%提到了Kinect。在佐治亚理工学院,我们正在使用Kinect来测量儿童的行为,以支持自闭症和其他发育和行为障碍的研究和治疗。

总而言之,Kinect是创新硬件和软件设计的有力结合,借鉴了数十年的计算机视觉研究。未来几年,深度相机技术的普及将使基于视觉的传感技术取得新进展,并支持日益多样化的应用。

回到顶部

作者

詹姆斯·m·Rehgrehg@.gatech.edu)是亚特兰大佐治亚理工学院交互计算学院的教授,他领导着行为成像中心和计算感知实验室。


©2013 0001 - 0782/13/01 ACM

如果您不是为了盈利或商业利益而制作或分发本作品的部分或全部,并在第一页注明本通知和完整引用,则允许您免费制作本作品的部分或全部数字或纸质副本,供个人或课堂使用。本作品的组成部分必须由ACM以外的其他人享有版权。信用文摘是允许的。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org或传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2013 ACM有限公司


没有发现记录

登录为完全访问
»忘记密码? *创建ACM Web帐户
文章内容:
Baidu
map