如果未来的人工智能像许多科技公司所希望的那样,以AR眼镜和其他可穿戴设备的形式通过我们的眼睛来观察世界,它们将需要学习如何理解人类的视角。当然,我们已经习惯了,但关于日常任务的第一人称视频片段非常少——这就是为什么Facebook为一个新的公开数据集收集了几千小时的数据.
Facebook正试图克服的挑战很简单,即即使是当今最令人印象深刻的物体和场景识别模型,也几乎完全是在第三人称视角下训练的。所以它可以识别一个人在做饭,但只有当它看到那个人站在厨房里,而不是从那个人的眼睛。或者它会认出一辆自行车,但不是从骑车人的角度。这是一种视角的转变,我们认为这是理所当然的,因为这是我们经验的自然组成部分,但计算机发现这相当困难。
机器学习问题的解决方案通常是更多或更好的数据,在这种情况下,两者兼得无妨。因此,Facebook联系了世界各地的研究伙伴,收集了一些常见活动的第一人称视频,比如烹饪、杂货店购物、打鞋带或只是出去玩。
13所合作大学从9个国家的700多名参与者那里收集了数千小时的视频,应该从一开始就说,他们是志愿者,控制着自己的参与程度和身份。一个研究团队观看、编辑并手工注释视频,同时添加了他们无法在野外捕捉到的场景片段,将这数千小时缩减到了3000小时。在这篇研究论文中都有描述。
从TechCrunch
查看全文
没有发现记录