acm-header
登录

ACM通信

研究突出了

技术角度:计算(内部)动作所在的位置


观看和声波,插图

SoundWatch是一个原型系统,它可以检测音频事件,并通过智能手表的屏幕向聋人和听力困难的人显示音频事件的描述。除了系统本身之外,SoundWatch还提供了一个案例,分析了随着计算继续向交互发生的地方靠拢,我们可能会遇到的机遇和挑战。

接入技术一直以来都是通向未来的窗口,所以我们可以从SoundWatch这样的原型中学到很多东西。举例来说,语音识别现在是主流,但长期依赖它的人是那些发现用其他方式打字很难的人。主流用户界面关注于一小部分模式,而易访问性则必须探索超越常见能力假设的交互。

获取技术的感觉,而不是试图理解。举个例子,想想SoundWatch告诉用户“去开门”和提醒用户可能听到“门铃”的区别。两者都可能导致用户检查门,但后一种消息可以更好地保护用户代理,并使人类用户能够更好地弥补系统的限制。如果我没有门铃,或者我不在家,那么如果SoundWatch显示它听到了门铃的声音,我就能更好地推断出其他哪些声音事件可能是可信的。

早期的接入技术非常庞大。它们的效果也不好。它们速度慢,不准确,而且在它们能做的事情上受到严重限制。然而,当它们比其他方法更有价值时,它们有时会被采用。早期的声音识别系统只能探测到少量的声音,它们被插在墙上,是昂贵的特殊用途设备。如今,基本的声音识别已成为智能手机的标配。

计算,尤其是机器学习,一般都在向交互发生的地方靠近。智能手机让互动变得移动,可穿戴电脑的原型已经存在了几十年;相比之下,商用智能手表似乎只是一小步,但它们极大地改变了互动的可能性。智能手表的屏幕总是一目了然,而手机通常藏在口袋或包里。手机必须随身携带,而且易碎,而智能手表则是与人相连的,很难忘记或掉落。太笨重、太奇怪或太难看的设备会被抛在后面(这是一个众所周知的设计考虑因素),而智能手表将计算引入了一个有200年历史、被广泛接受的形式因素。

智能手表还没有足够的计算能力成为一个人的唯一设备,性能好的ML模型体积大,计算成本高。模型压缩和高效的ML研究正在解决这些问题。无论如何,在任何给定的时间,对于最有趣的现实世界问题,性能最好的模型将需要比人们经常使用的最低功耗设备更多的计算。SoundWatch可以识别20种声音,但是如果我们想要识别1000或10000种声音,转录语音,或者更能识别噪音呢?这些功能将首先在更强大的设备上使用。

计算机科学家喜欢在设计架构时权衡不同的计算能力和延迟。SoundWatch指出,这必须包括我们身体上的多个计算设备。SoundWatch用智能手表、智能手机和远程服务器探索了一个网络;在不久的将来,当这些权衡必须考虑到许多可穿戴设备(如耳机、戒指、隐形眼镜和用户所穿的鞋子)上可用的计算时,需要做些什么准备呢?计算越接近用户交互,它的功能就越弱,这是一种新的以人为中心的权衡,目标不容易或不普遍定义。

人机交互(HCI)研究在设计这些架构中扮演着至关重要的角色,因为决定在哪里进行计算不仅是一个技术问题,也是一个人的问题。SoundWatch的研究提供了一个例子。通过与SoundWatch互动,潜在用户能够提供更多生态上有效的反馈,告诉他们哪些声音需要快速检测(例如,那些与安全有关的声音),哪些声音需要更长时间(例如,环境声音)。SoundWatch没有探索的一个挑战是,如何设计性能和能力随底层架构变化而变化的可用系统(例如,当我有手机时,而不是没有手机时)。需要更多的HCI研究!

SoundWatch邀请我们展望近期的未来,它不仅将塑造可访问性,还将广泛地塑造我们与技术互动的方式。人们可能一直专注于等待增强人类的科幻愿景,而我们错过了现在无处不在的计算。从我们的手机、手表、左右耳机,到许多其他设备,现在都能够进行计算——哪些交互可以有效地本地化,人们期望的性能是什么,以及需要哪些跨计算机科学的创新来支持它们?SoundWatch的直接目的是提高可访问性,但像这样的原型最终会推动我们推动计算的每个领域。

回到顶部

作者

Jeffrey p . Bigham是美国宾夕法尼亚州匹兹堡卡内基梅隆大学人机交互研究所的副教授。

回到顶部

脚注

查看所附文件,请访问doi.acm.org/10.1145/3531447


版权归作者所有。
向所有者/作者请求(重新)发布许可

数字图书馆是由计算机协会出版的。版权所有©2022 ACM股份有限公司


没有发现记录

登录为完全访问
»忘记密码? *创建ACM Web帐户
文章内容:
Baidu
map