acm-header
登录

ACM通信

ACM新闻

机器学习模型的失败


汽车驶下悬崖的故障信号

虽然目前大多数ML都是受监督的,并且基于模式匹配来支持预测,但仍然有很多地方可能出错。

信贷:KDnuggets

机器学习具有强大的能力。它可以将数据转化为知识,在数据中发现人类无法发现的模式和趋势,随着时间的推移自我改进,并节省数据处理和分析的时间。它也有很大的局限性。

许多机器学习模型未能商业化的原因包括:

  1. 数据质量差
  2. 缺乏对目标的沟通
  3. IT和数据科学家之间的分歧
  4. 赢得管理层的支持
  5. 雇佣需要的人才。

大公司“有钱”和小公司“没钱”之间不断扩大的差距也限制了机器学习(ML)的应用范围。

虽然目前大多数ML都是受监督的,并且基于模式匹配来支持预测,但仍然有很多地方可能出错。麻省理工学院媒体实验室的副教授Ramesh Raskar说,在有监督的ML这个例子中,要使模型成功,需要集合模型的要素,包括正确的数据、数据质量、模型选择、技能集,以及如何训练和使用模型。

拉斯卡尔说:“机器学习模型通常会失败,因为缺乏资源和对模型能力的过高估计。”

拉斯卡尔说,能够自行解决问题并从现实世界中学习的无监督机器学习可以更好地工作,尽管它仍处于早期发展阶段。他举了一个训练自动驾驶汽车避免事故的例子。“这是一个开放的问题,因为缺乏训练模型的数据,”他说。“基于电子游戏的监督学习可以用来观察汽车在雨或雾中的表现,但我们准备好把它放在街上的一辆真正的汽车上了吗?”

Fiona Browne是北爱尔兰贝尔法斯特软件开发公司Datactics的软件开发和ML的负责人,也是北爱尔兰阿尔斯特大学的讲师,她同意Raskar所确定的ML模型的许多局限性,但从感知和客观层面开始。根据Browne的说法,“公司在压力下展示他们如何使用ML并将其构建到系统中,但他们不一定了解它如何与业务目标相适应。关于人工智能的宣传铺天盖地,正如麻省理工学院(MIT)所说,它是数学,不是魔法。”

Browne也注意到将ML部署到生产环境中的紧张情绪,因为一旦出现问题,就可能造成巨大的声誉损失,特别是在医疗等高风险应用领域。Browne说:“需要围绕感知进行培训,商业目标必须在项目设计的开始,在技术之前,以及项目完成和成功的可衡量指标。”“在部署这项技术时要保守,只在它有效的地方使用它。”这里的一个例子是Datactics使用ML来识别数据集中的异常值和错误。

至于ML模型使用正确的数据和数据质量的问题,Browne说:“每个人都想做模型工作,但不想做数据工作。数据被低估;这里需要改变思维模式。”根据ML中的80/20规则(数据科学家80%的时间花在数据准备上,其余20%花在建模和ML上),Browne提倡一种嵌入式的、系统化的数据和数据质量方法。“与调整模型相比,向模型中添加更多数据可以提高性能。”

与人工智能的所有领域一样,风险评估、问责、可解释性和偏见都是成功的人工智能的挑战。Browne引用学术研究表明,谷歌的语音识别软件准确识别男性语音的可能性比女性或儿童语音的可能性高70%,他说这是对模型使用的数据集做出决策的结果。

穆迪分析公司(Moody's Analytics)图书馆科学主管乔恩•坎贝尔(Jon Campbell)表示:“当管理层说他们需要人工智能、人工智能和数据科学家时,他们就会倾向于神经网络。当你只有一把锤子时,所有东西看起来都像钉子。”同样,坎贝尔补充道:“ML需要背景。如果数据科学家在不了解输入和输出的影响的情况下从自己的角度看待一个问题,那么失败的可能性就很大。模型需要同行的评审和挑战,因为每个人都有偏见。”他指出,从穆迪的角度来看,“人工智能和人工智能需要透明度,需要有人参与其中。”

虽然这些和其他对ML成功的挑战都摆在桌面上,以寻求解决方案,但Raskar发现了ML发展中的一个不太明显的限制。“大公司有大量数据可以借鉴;它们比规模较小的企业有优势,这些企业没有相同的数据量和质量,无法构建高质量的模型。目前,‘富人’和‘穷人’在人工智能方面的差距越来越大。”

一个潜在的解决方案是分割学习,这是麻省理工学院媒体实验室的一项倡议,它共享数据资源,允许参与的实体在不共享任何原始数据的情况下训练机器模型。Raskar说:“ML模型只和它们拥有的训练数据一样好;分裂数据在这里发挥了作用。”

也就是说,Raskar说大量的数据并不一定足够,并建议使用最大相关性最小冗余(mRMR),这是一种最小最优特征选择算法,旨在为给定的ML任务找到最小相关的特征子集。

MLOps也正在开发将ML的组件拼接在一起。“在ML,你有数据科学家和工程师,他们非常喜欢实验,不像传统的软件开发人员,”Browne说。ML需要系统化的方法、透明度、可审核性和治理。希望我们能看到ML应用程序的成熟来支持这些过程。”

考虑到ML建模的软面,Campbell总结道:“我们正接近一个分水岭时刻,那时技术将只是ML的一部分。将会有额外的监督,关注结果和可解释性,尽管还没有一个明确的愿景如何显示这一点。”

莎拉·安德伍德是一位住在英国泰德顿的科技作家


没有找到条目

Baidu
map