计算和通信成本的指数级下降正在迅速导致收敛和普遍存在。与此同时,廉价的计算能力正在使机器感知人类行为方面发生一场无声的革命。在不久的将来,我们期望机器感知与无处不在的计算和通信融合。
这种融合可能会导致能看见的事物和环境的广泛引入。然而,获得无处不在的感知的好处将需要考虑人类的能力和社会需求作为系统设计的一个组成部分。
人机交互(HCI)的研究已经发展出了构建有用和可用系统的认知理论、设计方法和软件工具。科学结果和实证研究已经得出了诸如直接操纵的合理原则。然而,近二十年来,直接操作一直以“电子桌面隐喻”的形式实例化,危及了物理世界的直接性和可提供性。
最近HCI的努力寻求在物理位元和电子位元之间建立一个无缝的桥梁。韦纳数码办公桌[12和《菲茨莫里斯的砖》[6说明了这一趋势。在数字办公桌中,用纸和橡皮等办公工具通过使用视频投影和机器视觉的计算增强。砖块允许直接操作电子物体,使用类似乐高的物理工件作为手柄来控制虚拟世界。数字桌面和其他受积木启发的可理解的标志性系统已经证明了混合物理和虚拟实体的好处。然而,由于他们使用的是幼稚的机器视觉技术,他们的贡献无法在现实条件下进行测试。机器视觉的进步为这些新范式提供了有效的机会。
机器视觉是使用摄像机观察环境的过程。它与图像处理的不同之处在于,它从与特定服务集相关的图像中提取信息。机器视觉可以为人机交互提供的基本服务包括检测、识别和跟踪。检测确定给定类型的实体是否存在。例如,场景中是否有一只猫?识别是识别类的实体出现在场景中,例如,我的猫Garfield出现在场景中。跟踪是在一段时间内确定实体的位置。
在人机交互方面,相关实体包括:
技术可以被设计用来观察单个实体、一对或更大的群体。例如,为Digital Desk设想的交互需要管理多种类型的实体,如橡皮、手指和钢笔。在协作环境中,系统可能必须区分属于不同人的手或同一个人的两只手。
基于上述基础服务,机器视觉可以有多种利用方式。首先,人类的行为或物体可以被跟踪,而不像数据手套、人体服或磁定位器(如阿森松鸟群)那样受到笨重电线的限制。其次,机器视觉可以通过将那些很难或不可能执行的任务委派给系统来扩展人类的视觉能力,例如监控远程站点。第三,机器视觉可以通过抑制类似鼠标的中间工具来提高交互过程的直接性:当实时跟踪时,你的手指就变成了一个输入设备。与鼠标相反,不需要抓住它。它已经在你手里了!我们用两个不同的系统来说明直接性的性质:魔术板和知觉窗口。
魔法板,如图所示图1,是一个结合了视频投影仪和可操纵摄像头的物理白板,提供了一个简单的增强工作空间。像最近的电子商业智能板,它允许电子墨水与物理干标记和传统的橡皮擦结合使用。与它们不同的是,它不提供复杂的服务。我们希望它能够保持现有工具的自然作用。因此,在物理板上增加了用于头脑风暴的最小电子编辑功能(如选择、复制、移动和保存)。
Magic Board也不捕获动态的物理墨水,但在交互过程中的特定点(如复制和保存)支持用常用物理工具(你的手,手帕,你能想到的)快速删除标记。它不受采样系统分辨率的限制:用标记进行绘图可以在任何速度和任何压力下完成,而不会丢失任何信息。最后,由于工作表面是由一个可操纵的相机观察,它的大小不受限制。此外,任何白色(或黑色)表面都可以用作生产空间。它也可以捕获和数字化写在纸上的材料,如便利贴。
图1演示魔术板支持的交互原理。魔术板使用机器视觉和图像处理来跟踪手指并以高分辨率捕获板上的内容,而感知窗口[1]使用机器视觉来跟踪头部。
感知窗口(图2)提供了一种新颖的交互技术,使用头部运动来控制文档中窗口视点的2D位置(参见iihm. image .fr/demos/pwindow/)。知觉窗口不是一个眼球追踪器。事实上,眼球运动很难适应运动控制。自然的眼球运动在短时间的注视和快速的扫视之间交替,这往往是对无意识反射的反应。虽然固定可以用于选择,但眼跳运动过快和不自主,无法控制运动。我们发现,头部运动为滚动提供了一种更自然的命令形式。
在标准工作站上,滚动通常分配给鼠标和滚动条。感知窗口提供了多种形式的滚动技术。一种可能是控制滚动速率,而鼠标可以用于其他任务(例如,选择)。当头部向上倾斜到一个中立区域外时,窗口内容将向下滚动。滚动的速度由头部的角度决定。将头部返回到中立区域将停止向上滚动。向下、向左或向右、甚至对角线倾斜头部,都会引发类似的滚动操作。滚动速度由位置的指数函数控制,允许精确调整和快速滚动取决于头部运动的数量。
知觉窗口的新颖性来自于使用头部运动来建立交互环境。在20世纪80年代中期,guidard证明了在双手不对称使用的情况下,使用两只手可以提高表现[7].在这种运动中,非主导手为主导手定义了参照系。非惯用手首先移动,其次是惯用手。非主导手执行粗粒度的动作,而主导手分配给细粒度的动作。
在知觉窗口中,手和鼠标形成主导流,头部被用作非主导流:头部为鼠标工作区设置窗口视点,它首先移动,并且窗口视点不必精确设置。正如guidard理论所预测的那样,头部运动互动的效果明显优于滚动条(任务完成时间平均提高了32%)[1].
感知窗口和魔法板说明了人机交互如何从机器视觉中获益。但是,这只有在满足以人为本的需求时才可能实现。
为了可用,机器视觉必须是健壮的和自主的。为现实环境设计健壮的自主交互系统比为受控实验室环境构建系统要困难得多。在现实世界中,照明和背景条件可能以突然的方式变化,用户可能以意想不到的方式行为。此外,当与人类行为紧密耦合时,响应时间必须符合人类行为感知技能。
鲁棒性和自主权。如果一个机器视觉系统在干扰出现时不崩溃,那么它就是鲁棒的。如果它能够在不需要用户显式干预的情况下检测故障并纠正问题,那么它就是自治的。健壮性需要重新配置和重新初始化以适应新的操作条件。如果重新配置或重新初始化需要人工干预,那么用户将从中心任务中断,系统的可用性将严重下降。因此,可用性需要健壮性和自主性。
在目前的系统中,可接受的妥协是在个案的基础上设计的。例如,在Magic Board中,每当用户用手指选择菜单时,手指跟踪器就会初始化(参见图1 e).在媒体空间喜剧[4,每当用户眨眼时,人脸跟踪的视觉过程就会重新初始化,并像这里解释的那样动态地重新配置。在这两种情况下,重新初始化都集成到系统操作中,因此对用户来说,适应是透明的(或近乎透明的)。另一方面,感性窗口被设计为一个实验室实验,必须手动初始化。感性窗口的当前实现缺乏自主权,这使得它不适合在现实世界中使用。
紧密耦合交互:延迟很重要。当一个人和一个人工系统在完成相互依赖和相互观察的行为时以连续的方式结合在一起时,它们被称为“紧密耦合”。例如,在Magic Board中,当用户用手指选择一个标记时,用户和手指跟踪器是紧密耦合的。在感知窗口中,当用户执行滚动任务时,用户和头部跟踪器紧密耦合。
在紧密耦合的交互中,人工系统和人类处理器形成一个闭环,其行为可以通过为控制理论开发的分析工具进行形式化分析。延迟(或滞后)是闭环系统的一个关键参数。使用模型人类处理器[2],我们已经能够估计机器感知的延迟必须小于50ms,使用手指跟踪直接操作。这一预测得到了Ware等人对其鱼缸系统开发的基于polhemus的头部跟踪器的经验结果的支持[11].
不适当的系统延迟会导致冗余动作和振荡。例如,在缺乏即时系统反馈的情况下,用户可能会尝试做出不适当的更正。这些修正会导致不需要的系统响应,用户可能会进一步尝试修正。这个条件可以迅速地驱动系统发散或振荡。
虽然延迟对跟踪系统的可用性至关重要,但在开发HCI感知系统时,稳定性、分辨率和精度也是需要考虑的重要特征。使用摄像头来提高人机交互的直接性是一回事。被远程同伴监视会带来隐私问题。
隐私保护。在媒体空间使用的视频通信中,隐私保护已得到解决。媒体空间使用低带宽视频通信,在地理位置分散的团队成员之间提供非正式沟通和群体意识[4].为了被社会接受,媒体空间必须支持隐私。隐私过滤器包括降低分辨率、阴影、时间差图像和特征空间过滤器。
特征空间滤波采用主成分分析(PCA)。通过对一组“社会正确”图像的主成分分析,确定一组正交基图像。通过计算与基图像的内积对实时图像进行编码。这种技术是通过使用自动人脸跟踪来驱动可操纵相机来保持用户在图像中的中心而实现的。
特征空间编码的一个有趣的特性是,编码只会捕获原始图像集中的信息,并在生成的图像中重构。例如,在图3一,源图片(左)显示François的手指在他的鼻子里。这个社会不正确的手势不属于基空间,在重构图像中没有显示出来(右)。类似地,出现在背景中的人除非出现在基础中,否则不会进行交流。
特征空间编码还允许用户对由不同人物或角色的面部图像组成的数据库进行动画处理,这引发了伦理问题。例如,François的图像(左在图3 b)被重建为弗雷德(右)。当用户希望总是显得整洁得体时,这个属性可能会很有用,但如果用户伪装成其他人,也会引发道德问题。
以人为中心的需求可能与可用的计算资源和视觉技术不兼容。鲁棒性和响应时间可以以接受操作条件的约束为代价来相互满足。这样的约束是可以接受的,只要它们保留了系统的本体(即étre的原因)。
由于对实时响应的要求,人机交互的机器视觉必须使用简单、最小的视觉技术。简化机器视觉的一种方法是利用对用户或操作环境的显式约束。可接受的限制条件须符合下列准则:
这些原则在VideoPlace和Magic Board中得到了说明。VideoPlace需要一个发光的背景,并且一次只允许一个用户使用。在魔法板中,每次只追踪一根手指。这些限制简化了图像处理,而不会威胁到系统的本体:用户可以随心所欲地来。其他可能的限制包括行动速度的限制或穿特殊服装的限制。这些限制了参与者的技能和自由的约束在VideoPlace和Magic Board的环境中是不可接受的选项,但在其他应用程序中可能有用。
到目前为止,我们已经展示了HCI设计人员可以从机器视觉中预期的好处,并明确了机器视觉开发人员必须解决的需求,以便为现实生活设置提供可用的技术
自20世纪90年代初以来,机器对人类行为的感知一直受到几个因素的影响。主要驱动力是廉价的计算能力。另外一个影响是在个人电脑中引入图像采集硬件,这大大降低了试验实时计算机视觉系统所需的投资。
实验的指数增长导致技术的发展,提供可靠和可重复的结果接近视频速率。基于外观的方法为图像分析和描述提供了一个重要的进展。基于外观的方法直接从图像测量场景信息,而不尝试三维重建。
外貌的愿景.大多数基于外观的方法使用以前观察到的图像作为模型或模板。这样的技术往往计算起来又快又简单,这使得它们成为构建观察人类行为系统的流行工具。常用的技术包括主动轮廓[8],肤色检测[10),和互相关。
一个活动轮廓迭代计算之间的平衡外部力量吸引它到高对比度和内部力量保持连接。将主成分分析应用于运动中的活动轮廓点,可以得到简单的模型,可以实时跟踪面部、嘴唇和手。
使用归一化颜色直方图的比率的肤色检测可以使用表查找编程,使得实时检测和跟踪肤色区域成为可能(参见图4一).交叉相关使用图像的小区域作为模板,以便在以后的图像中进行搜索图4 b).
对面部表情、手势或行人动作的识别可以表述为识别轨迹的过程。隐马尔可夫模型(hmm)为识别表示手势、面部表情或人类活动的轨迹提供了一种形式主义。最近的进展已将该模型扩展到物体或人的集合的耦合轨迹。
自主性和鲁棒性需要集成和控制连续运行的感知过程的方法。集成和控制可以由反应系统提供。
反应系统。反应式感知系统可以由一组集成在事件驱动体系结构中的感知过程组成。感知过程形式化为从传感器数据到符号事件和属性向量的循环转换。它们由一个对事件做出反应并充当调度程序和资源分配器的监督程序启动、控制和终止。
符号事件是断言关于环境或关于传感器或感知过程状态的信息的消息。象征性事件的例子包括一个人到达门口,抓住桌子上的一个物体,以及关于传感器故障的断言。属性向量用于控制设备、通信命令、以数字形式输入信息或使感知过程适应环境条件。属性向量的一个例子是对图像中人脸的位置、方向和大小的估计,然后可以使用它来控制相机的平移、倾斜和缩放。另一个例子是属性向量,它给出房间中一组人的位置和身份。第三个例子是一个物体的位置、方向和速度矢量,如砖块[6].
面部追踪系统[5], CoMedi是一个反应系统的例子,其中三个互补的视觉过程由一个主管基于事件初始化和控制。这些过程分别是眨眼检测、肤色检测和相互关联,如图5 b.眨眼检测提供了图像中人脸的估计位置,可用于初始化皮肤检测和相互关联的程序。与参考模板的相互关联提供了快速和准确的跟踪,但当头部旋转或移动过快时就失败了。肤色检测提供了健壮的面部跟踪,但速度较慢,精度较差。这两个过程都可以通过闪烁检测轻松地重新初始化,从而提供一个持续适应用户及其环境的系统,并且足够健壮和快速,允许“自然”位移。
那么,感知、通信和计算的融合会带来什么结果呢?虽然细节无法预测,但我们可以根据推动创新和技术发展的力量预测总体趋势。
对人类行为的感知有望成为下一代人机交互工具的关键组成部分。这种方法可以使人类以一种自然的方式与机器交互,类似于人类与自己交互的方式。感知用户界面的关键是可用性。可用性决定了技术创新的需求。在传统GUI界面不适合的领域,基于机器感知的交互最有可能发展得最快。商业和信息服务站就是一个明显的例子。另一个领域是智能空间,可能从视频监控发展而来。
社会经济条件将推动感性环境的初步发展,向最容易获得绩效提高和最容易获得投资回报的资源领域发展。商业和办公环境为该技术提供了一个特别肥沃的领域。目前,增长最快的是安全视频监控。视频监控可以潜在地为商业和业务经理提供运营反馈,从而更有效地设计产品展示和行人通道。它还可以为产品设计师提供重要的信息。然而,这类应用程序将要求确保用户的隐私得到保护。对人类行为的感知可以在不暴露身份、不存储或交流图像的情况下,提取人们与产品和展示互动方式的商业有趣信息。
另一个近期有增长潜力的领域是通信和感知的融合。在媒体领域,低带宽视频通信通过提供持续的非正式通信,使地理位置遥远的工人可以动态地组成工作团队。然而,隐私保护和对移动的限制使这种应用不切实际。对人类行为的感知允许用户在环境中自由移动,同时也提供了保护隐私的工具。最终,随着这种技术的成熟,媒体空间将允许地理上分离的家庭,包括老年人,在保护个人隐私的同时分享存在感。国内媒体空间应用的长期市场规模是人口的很大比例。
从长远来看,与智能空间相关的应用将使媒体空间和商业监控服务相形见绌。当你的办公室、汽车和家庭知道你的习惯并观察你的活动时,许多常见的家务就可以自动提供了。例如,你的汽车可以告诉你的家打开暖气,并在一天结束回家的时候开始准备晚餐。当您在家时,您的家可以协调自动订购的产品的交付。自动清洁设备可以在您不在时触发。在工作或娱乐中,任何物理设备都可以通过简单的操作方式与数字世界进行通信。
我们描述了用于检测事件、测量属性、识别和跟踪人类及其行为的现有机器视觉技术,并展示了如何将这些过程集成到事件驱动的体系结构中。然而,这些技术和“能看的机器”之间仍然存在着重要的差距。这种差距可以用一个词来概括意识。
当机器维护其环境中对象和参与者的位置、身份和角色的描述时,就可以说它是有意识的。意识超越了感知,还包括自主、适应和人机交互。只有当机器感知系统能够以一种功能上有用的方式与用户进行通信时,它才会被认为是有意识的。与电灯、电话或动力飞行一样,机器感知是信息技术面临的重大挑战之一。对人类生活质量的长期影响可能是巨大的。
1.Bérard, F.知觉窗口:头部运动作为一个新的输入流。在人机交互IFIP会议记录(INTERACT99)。点Sasse和C. Johnson, Eds。IOS出版社(1999),238244。
2.S.卡德,T.莫兰,A.纽维尔。人机交互心理学.劳伦斯Erlbaum, 1983年。
3.使用局部外观的活动概率识别。在IEEE计算机视觉和模式识别会议论文集,CVPR '99。(1999年6月,Fort Collins, CO) IEEE出版社,纽约。
4.库塔兹,J., Bérard, F.,卡罗,E.,阿斯蒂埃,W.和克罗利,J.L. CoMedi:使用计算机视觉支持媒体空间中的意识和隐私。在计算机与人交互(CHI)会议论文集。扩展摘要(视频演示),(1999),1314。
5.Crowley, J.L.和Bérard, F.用于视频通信的人脸多模态跟踪。在IEEE计算机视觉与模式识别会议论文集,CVPR '97。(1997年6月,圣胡安)IEEE出版社,纽约。
6.Fitzmaurice, G., Ishii, H.和Buxton, W. Bricks:为可掌握的用户界面奠定基础。在CHI95学报》(1995) ACM出版社,纽约,442449。
7.人类熟练双动作中的不对称劳动分工:以运动链为模型。J.运动行为19, 4(1987), 486517。
8.Kass, M., Witkin, A.和Terzopoulos, D.蛇:活动轮廓模型。在第一届计算机视觉国际会议论文集。(1987), 259268。
9.克鲁格,M。人工现实二世。Addison Wesley,宾夕法尼亚州雷丁,1991年。
10.Schiele, B和Waibel, A.基于面部颜色的注视跟踪。在自动面部和手势识别国际研讨会论文集。(1995年,苏黎世)。
11.Ware, C.和Balakrishnan, R.在VR显示器中触摸物体:延迟和帧率。ACM反式。计算机与人的互动(TOCHI)4(1994), 331356。
12.韦纳,P.,麦凯,W.和戈尔德,R.计算机增强环境:回到现实世界。Commun。ACM 36岁,7(1993年7月)。
图1。与魔术板交互(iihm. image .fr/demos/magicboard/)。
图2。知觉窗口使用小的头部运动作为第二个输入流在文档中导航。
图4。在基于外观的计算机视觉方法中,常用的人机交互机器视觉技术有:(a)肤色检测。一个皮肤样本(左上角图像中的小红色矩形)被用来构建一个颜色空间(右)。颜色空间中的椭圆形区域表示皮肤颜色的像素。左下方图像中的像素表示蒙皮的概率。白色像素表示肤色区域;(b)互相关。获取要跟踪的项目的模板(例如,魔术板的手指,红色矩形)。模板与图像在搜索区域(绿色矩形,左边放大)中的位置进行比较。选择模板与图像最匹配的图像位置,并定义搜索区域的位置
©2000 acm 0002-0782/00/0300 $5.00
允许为个人或课堂使用本作品的全部或部分制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。
数字图书馆是由计算机协会出版的。版权所有©2000 ACM, Inc。
没有发现记录