人类的视觉是一个了不起的东西。观察周围世界的能力——光、形状和运动——使我们能够完成一系列了不起的任务。然而,将这些品质注入机器是令人生畏的。
然而,一项名为“视觉AI”的新兴技术面临着这一挑战。它利用处理能力和人工智能(AI)的进步在更深层次上理解视觉事件。
“图像和视频数据本质上是非结构化的。这种方法将非结构化的内容转化为结构化的、可操作的数据。Vinod Valloppillil担任谷歌产品管理团队负责人云语言和视觉人工智能.
如今,视觉AI被用于检测制造缺陷,评估自然灾害造成的损失,甚至检测是否有人携带武器。很快,它就能辨别森林里树木的健康状况,并在活体组织检查中发现癌细胞。
就像个人电脑和后来的网络使纸张数字化,改变了人类处理文字和数字的方式一样,视觉人工智能正在改变计算机处理图像和视频的方式。它滑动表盘“超越了简单的物体识别”,说Chhandomay Mandal他是戴尔技术公司解决方案营销总监,也是视觉AI领域的权威。
早期的图像识别工具只是识别物体;视觉AI的目标是达到或超过人类的能力。风险投资基金Shasta Ventures的合伙人伊萨克·罗斯在2020年的一份报告中说:“任何你想要计数、记录、分析或存储的东西,都可以通过教视觉AI去寻找来获得。VentureBeat文章.
视觉AI的目标是扩展图像识别和分析,超越照片或视频中的单个对象,比如一只猫或一条河。它跟踪运动中的物体,分析背景的细微变化和变化,并试图根据图像中的多个事件来理解背景和情况。Mandal表示:“视觉AI能够更好地根据应用程序识别出哪些数据是重要的。
因此,Vision AI在许多领域都有价值,包括工业制造、能源生产、医药、娱乐和自动机器。
例如,伦敦动物学会该公司利用视觉AI技术在数千张图像中识别特定物种。整个过程只需几天而不是几个月,而且该系统可以发现以前研究人员无法发现的细节。
福克斯体育(Fox Sports)已经转向了这项技术日志和自动发现视频资产从数百万个视频剪辑驻留的云。这使得通过特定的标准进行搜索成为可能,从球员的球衣和佩顿·曼宁(Peyton Manning)的达阵传球到特定类型的受伤或场上庆祝活动。
开发利用视觉AI力量的下一代算法是当今努力的中心。曼德尔说:“这些系统必须能够在更广泛的可能性范围内识别物体和活动。”
瓦洛皮利尔说,还有一个额外的元素是将人类的心理和感知结合起来。“你必须了解什么是相关的,什么是有趣的,并将其与计算机能够做的事情相匹配。计算机在照片中识别出“草”或“一个人在奔跑”是可以的,但对人类来说,计算机识别出图像是“一个四分卫抛出触地传球”的价值要大得多。要做到后者,系统需要了解发生的背景和条件。”
通常情况下,数据科学家训练Vision AI系统从一组事件或场景中捕获尽可能多的相关数据。它们可能使用几种算法来生成对各种输入的响应;然后他们将数据通过深度学习系统进行运算。在广泛的统计分析和神经网络微调之后,开始使用Vision AI模型是可能的。
当然,这是一个复杂的任务,但这项技术将把机器视觉带到更复杂的飞机上,瓦洛皮利尔说。例如,它可以帮助无人机或自动驾驶汽车识别可能违反其典型程序的事件。他说:“视觉系统可能会识别停止标志,但高阶模型可能有理由忽略停止标志,或者无人机可能会因为某个地方出了问题而避免降落在某个地方。”
视觉AI还可以为网络浏览器和移动设备引入复杂的功能,特别是在YouTube、Facebook、Instagram、TikTok和Snapchat等应用程序生成越来越多的非结构化图像内容的情况下。
最后,这项技术可以引入全新的传感技术。这包括基于反射光或量子传感器传入的数据流来测量温度和其他环境条件的能力。
目前,最大的挑战是开发更先进的训练模型和构建框架,使视觉AI得到更广泛的应用。曼达尔说:“我们只是触及了人工智能能力的皮毛。随着资源的增加和算法的发展,Vision AI系统将能够执行更先进和有用的分析。”
塞缪尔·格林加德是美国俄勒冈州西林的作家兼记者。
没有发现记录