麻省理工学院(MIT)的研究人员利用机器学习降低了绘制令人信服的全息图像所需的处理能力,使得在消费级计算机硬件上以接近实时的方式生成图像成为可能。这种方法可以为便携式虚拟现实系统铺平道路,该系统使用全息技术代替立体显示。
立体图像可以呈现三维的错觉,但用户经常抱怨长时间使用后头晕和疲劳,因为大脑期望的焦点与两个图像的平面焦点不匹配。转换到全息图像生成就克服了这个问题;它利用对许多光束模式的干涉,在自由空间构建可见的形状,向大脑呈现它更容易接受的三维物体的图像。
“全息术的极端版本可以产生物体图像的完整光学再现。物体的图像和物体本身之间不应该有任何区别,”英国耶稣学院电子工程教授蒂姆·威尔金森说剑桥大学。
基于摄影胶片的传统全息图可以捕捉到在相对较宽的观察范围内工作的干涉图案,但不能支持运动图像。实时全息图使用空间光调制器(SLM)来改变光的振幅或相位,通常由一个或多个通过它的激光像素像素地提供。如今的slm还远远不够大,也不够精细,无法生成可远距离观看的全息图像,但它们现在已经足够好,可以在耳机中生成近眼图像,并已被内置到演示设备中,如微软研究院的安德鲁·迈蒙和他的同事开发的HoloLens原型机。
hololens型耳机的一个主要障碍在于生成全息图的计算成本。目前有三种算法用于生成动态全息图,每种算法都有其缺陷。一种是将视场划分为多个层,这有助于减少计算时间,但缺乏调整深度的能力。一种基于三角形网格的方案,就像游戏软件所使用的将3D场景渲染到传统的二维(2D)显示器上的方案,有助于减少处理时间(尽管不需要修改纹理,它缺乏真实感)。点云方法提供了最佳的现实可能性,尽管代价是消耗更多的周期。在最纯粹的形式中,算法追踪SLM重放场中从每个点到每个像素发出的光。“光从一个点发散到一个非常广的区域。每一个点光源都会在回放场中产生一层折射,”威尔金森说。
点云的一个缺点是,来自每个点的光不会到达目标全息图的每个像素,因为它会被它前面的物体挡住。这就要求软件删除应该阻塞的路径,这就增加了代码中的分支数量。虽然它不需要将光线从每个点映射到SLM中的每个像素,但检查和分支会降低执行速度。比利时布鲁塞尔自由大学博士后研究员大卫·布林德和他的同事们使用一种方法制作了用于编解码器测试图像的逼真全息图,使用nVidia Titan RTX图形处理单元渲染需要一个多小时。然而,为了在加速的硬件上实现实时性能,已经提出了许多优化方法,它们降低了算法精度和所需的步骤,并在一定程度上降低了质量。
MIT的方法使用了几种近似和优化方法,这些方法是围绕深度神经网络(DNN)构建的,该网络由多个卷积层组成,从许多亚全息图生成图像。这比直接将一个完整的点云映射到最终的完整全息图要少得多的计算。在传统的优化中,衍射模式的查找表可以帮助更快地构建这些亚全息图,但这仍然是一个密集的过程。
DNN允许更渐进的方法来组装最终图像,这导致更少的计算,特别是由于网络可以处理遮挡。该团队利用部分遮挡物体的图像及其亚全息图模式训练模型。使用iPhone 11 Pro上的A13仿生加速器,由此产生的算法可以以略高于1Hz的速度传输图像。研究人员表示,如果没有DNN提供的计算优化,处理时间将至少延长两个数量级。
麻省理工学院的工作支持了机器学习对良好数据的需求。该团队查看了现有的数据集,以生成所需的数据,但所有这些数据都遗漏了关键组件,这使得无法训练出有效的模型。博士生梁实(Liang Shi)和麻省理工学院项目的同事们发现的一个问题是,现有的数据集有近距离或远距离聚集的物体,中间的物体相对较少。这项工作需要一组更一致的例子,以避免模型中的偏差,导致不必要的人工制品出现在渲染场景中。Shi指出,RGB图像和深度数据也需要很好地对齐,以确保DNN能够很好地处理遮挡。他指出:“这禁止使用真实世界捕获的数据集,这些数据集通常有未定义的深度区域或不对齐的深度值。”
威尔金森认为,以这种方式使用的机器学习不太可能与全息显示很好地匹配,因为全息显示需要使用更广泛的光子干涉计算。它们通常使用傅里叶变换,而不是基于菲涅耳光学的衍射近似,后者是亚全息图算法的基础。
“机器学习通常是一对一或多对一的翻译过程。全息术,因为它是基于傅里叶的,是一个一对多的过程。每个点都可能对其他点产生影响,”威尔金森说。他指出,在slm中看到的全全息图的模式往往看起来像“随机的糊状,尽管你最后得到的是一个可爱的全息图。”在这些类型的机器学习系统中,如果你观察SLM上显示的内容,你会看到真实图像的部分衍射版本。”
slm的像素密度和分辨率限制限制了可支持的有效视角,以及“眼框”的大小。
布林德说,如果slm进化到提供更大的视野,MIT和其他机构采取的方法可能无法很好地扩展。“这种方法可能不适合有多个观众的全息电视。”
在短期内,这可能不是问题。slm的像素密度和分辨率限制限制了可支持的有效观察角度,以及“眼睛”的大小。“眼睛”是指观察者能够看到任何全息图的区域大小。眼动跟踪与快速重绘相结合,可以弥补耳机的这些局限性,并避免需要实现能够处理更大视野范围的算法。
机器学习还可以帮助提高显示输出的感知质量。斯坦福大学(Stanford University)电子工程助理教授戈登·韦茨斯坦(Gordon Wetzstein)说,全息显示器中的slm和其他光学元件很难控制,这导致了实验中的图像质量下降。“它们的行为几乎不会与你模拟的完全一致。机器学习可以通过学习硬件的代理模型来弥补这种差异,”他说。
Wetzstein和他的同事们使用了一种相机在环系统来帮助训练模型,以弥补光学缺陷,提高感知图像质量。施说,麻省理工学院的团队正在研究基于dnn渲染系统的类似方法。“我们已经做了后续工作,考虑到SLM的缺陷和用户的视觉畸变,并在全息图计算中对两者进行补偿。”
威尔金森认为,机器学习在纠正方面可能有些过头了,至少对消费显示器来说是这样。“像差通常是一个低阶问题,尽管在一些应用中它不是,比如自由空间光通信。如果机器学习最终被用于此领域,我不会感到惊讶。”
一个悬而未决的问题是,机器学习是否会成为全息渲染的支柱,或者在算法上的工作是否会产生类似甚至更高的计算效率,可以用于商业全息显示或投影仪。
威尔金森表示,机会仍然存在于确定性技术,而不是基于人工智能的技术,这些技术针对性能进行了优化。他说,到目前为止,在许多计算全息术的工作中,有一种倾向是坚持使用已知的计算全息图的解决方案。“如今,我们用于全息摄影的算法只有三种。这不可能。我们一定遗漏了什么。我们倾向于找到一个可行的解决方案,然后使用它。我们不太会跳出思维定势。我认为这是一个错误。”
一个问题是很难确定一个算法在图像质量方面的表现有多好。威尔金森说,这就是机器学习使用误差最小化和规范可能被证明有用的地方,通过提供自动化的方法来评估图像与黄金参考的距离。
布林德表示,全息显示可能会采取与nVidia深度学习超级采样系统类似的方式,后者利用机器学习从低分辨率、部分渲染的数据中插入高分辨率的图像。“考虑到dnn的普遍性,我认为混合系统将是未来最有可能的结果。但在全息摄影中实现这一点可能更具挑战性,因为信息在空间上没有很好地本地化。”
威尔金森说,全息摄影机器学习的一个可能方向是将多个slm的输出结合起来,尝试制造更大规模的投影仪,而不是耳机。
SLM的尺寸、分辨率和切换性能仍然是提供可行耳机的障碍,但计算全息技术的工作已经导致制造商对这些应用产生了更多的兴趣。威尔金森说:“我们开始看到定制硅的出现,这表明制造商正在认真对待全息图。”
随着硬件和算法的改进,虚拟现实可能会摆脱立体显示和随之而来的可用性。
进一步的阅读
Maimone, A., Georgiou, A.和Kollin, J.S.
用于虚拟和增强现实的全息近眼显示器,美国计算机学会图形学报第36卷第4期,第85(2017)条。https://doi.org/10.1145/3072959.3073624
Shi, L., Li, B., Kim, C., Kellnhofer, P., and Matusik, W.。
利用深度神经网络实现实时逼真的3D全息,自然, 591卷,234页,2021年3月11日。https://doi.org/10.1038/s41586-020-03152-0
Chang, C., Bang, K., Wetzstein, G., Lee, B.和Gao, L.。
面向下一代VR/AR光学:从以人为中心的角度回顾全息近眼显示器,视神经节,第七卷,第11期(2020年)。https://doi.org/10.1364/OPTICA.406004
布林德,D,大哈,A,贝滕斯,伯恩鲍姆,T, Symeonidou, A, ottevere, H, Schretter, C,和Schelkens, P。
数字全息视频显示系统的信号处理挑战,信号处理:图像通信70(2019) 114 - 130。https://doi.org/10.1016/j.image.2018.09.014
©2021 0001 - 0782/21/11 ACM
如果您不是为了盈利或商业利益而制作或分发本作品的部分或全部,并在第一页注明本通知和完整引用,则允许您免费制作本作品的部分或全部数字或纸质副本,供个人或课堂使用。本作品的组成部分必须由ACM以外的其他人享有版权。信用文摘是允许的。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org或传真(212)869-0481。
数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc。
没有发现记录