acm-header
登录

ACM通信

评论文章

自动化数据科学


连锁银三维齿轮,插图

信贷:贾斯汀梅茨

数据科学涵盖了从数据中获得洞察力的各个方面,从最初的数据收集和解释,到数据的处理和工程,再到探索和建模,直到最终产生新的洞察力和决策支持系统。

回到顶部

关键的见解

ins01.gif

与其他数据分析方法论学科(如统计学、机器学习、数据库或可视化)相比,数据科学可以被视为重叠或范围更广。10

为了说明数据科学的广度,请考虑向客户推荐项目(电影、书籍或其他产品)的问题。虽然这些应用程序的核心可以包括算法技术,如矩阵分解,但部署的系统将涉及更广泛的技术和人工考虑。这些领域包括实时检索客户和产品数据的可扩展后端事务系统、用于评估系统变化的实验设计、用于理解干预效果的因果分析,以及影响客户对视觉信息显示的反应和决策的人为因素和心理。

另一个例子是,在天文学、粒子物理学和气候科学等领域,有构建计算管道的丰富传统,以支持数据驱动的发现和假设测试。例如,地球科学家使用基于亚公里分辨率卫星图像的每月全球土地覆盖地图,以更好地了解地球表面如何随时间变化。50这些地图是交互式和可浏览的,它们是一个复杂的数据处理管道的结果,在这个管道中,tb到pb的原始传感器和图像数据被转换为自动检测和注释的对象和信息的数据库。这种类型的管道涉及许多步骤,其中人类的决策和洞察力是关键的,如仪器校准、异常值的去除和像素的分类。

这些数据科学场景以及许多其他数据科学场景的广度和复杂性意味着现代数据科学家需要在众多主题上拥有广泛的知识和经验。加上对数据分析技能的需求不断增加,这导致了具有适当背景和经验的训练有素的数据科学家的短缺,以及对有限专业知识的激烈市场竞争。考虑到这个瓶颈,人们对数据科学过程的自动化部分(如果不是全部的话)越来越感兴趣也就不足为奇了。这种自动化的愿望和潜力是本文的重点。

正如在这些例子中所说明的,数据科学是一个复杂的过程,由所分析数据的特性和所提出的问题所驱动,在本质上通常是高度探索性和迭代性的。领域上下文可以在这些探索性步骤中发挥关键作用,甚至在预测建模(例如,以CRISP-DM为特征的)等相对定义良好的过程中也是如此5)在这种情况下,人类在定义相关预测变量方面的专业知识是至关重要的。

图1提供了一个概念框架,以指导我们对数据科学中的自动化的讨论,包括已经被自动化的方面以及可能准备自动化的方面。图的垂直维度反映了领域上下文在过程中的作用程度。领域上下文不仅包括领域知识,还包括人的因素,例如人与技术的互动,1对用户和非用户的副作用,以及所有安全和伦理问题,包括算法偏差。这些因素对数据理解和提取的知识的影响有不同的影响,一旦部署,这些因素通常由人工在循环中处理或监督。

f1.jpg
图1。本文中使用的四个数据科学象限说明了可以实现自动化的不同领域。

的下象限数据探索而且剥削的上象限通常与应用程序域紧密耦合,而工程数据而且模型建立通常是领域不可知论者。横轴表示整个过程中不同活动从更开放到更精确指定的程度,例如具有定义良好的目标、明确的建模任务和可度量的性能指标。工程数据而且数据探索通常没有精确指定,并且在本质上是相当迭代的,而模型建立而且剥削通常定义得更窄更精确。在经典的面向目标的项目中,过程通常由以下顺序的活动组成:数据探索、数据工程、模型构建和开发。然而,在实践中,这些轨迹可以更加多样化和探索性,实践者以不同的顺序和迭代的方式在这些象限中的活动中导航(例如,Martínez-Plumed等人)。31).

从布局图1例如,我们看到模型建立是我们可能期望自动化产生最直接影响的地方——这确实是自动机器学习(AutoML)成功的例子。然而,这种影响大多发生在基于监督学习的建模方法上,而自动化对于其他类型的学习或建模任务的发展还远远不够。

继续讨论图1工程数据在典型的数据分析项目中,任务估计通常要花费80%的人力。7因此,很自然地期望自动化可以在减少这种人工努力方面发挥主要作用。然而,努力实现自动化工程数据到目前为止,与自动化的努力相比,任务取得的成功较少模型构建。

数据探索包括确定给定数据集的相关问题、解释数据结构、理解领域提供的约束以及数据分析师的背景和意图,以及确定与数据伦理、隐私和公平相关的问题。背景知识和人的判断是成功的关键。因此,毫不奇怪数据探索给自动化带来了最大的挑战。

最后,剥削将可操作的见解和预测转化为决策。由于这些可能产生重大影响,某种程度的监督和人工参与通常是必不可少的,例如,新的人工智能技术可以为自动化报告和解释结果带来新的机会。29

一般来说,数据科学背景下的自动化具有挑战性,取决于它采取的形式,复杂度取决于它是涉及单个任务还是整个迭代过程,或者目标是部分自动化还是完全自动化。

  1. 自动化的第一种形式——机械化—当任务被很好地指定以至于不需要人工参与时发生。此类任务的例子包括运行聚类算法或标准化数据表中的值。这可以通过低级语言中的函数或模块来完成,或者作为传统上在数据科学中使用的统计和算法包的一部分。
  2. 自动化的第二种形式是作文-处理任务的战略顺序或任务的不同部分的整合。对代码或工作流重用的支持可以在近年来出现的更复杂的工具中得到,从面向交互工作流的套件(如KNIME、RapidMiner、IBM Modeler、SAS Enterprise Miner、Weka Knowledge Flows和Clowdflows)到用于数据分析和模型构建的高级编程语言和环境(如R、Python、Stan、BUGS、TensorFlow和PyTorch)。
  3. 最后,第三种形式的自动化——援助-源自可视化、模式、解释等元素的生产,这些元素专门针对支持人类的效率。这包括在数据科学过程中对人类的行为进行持续监控,以便自动助手能够识别不适当的选择,提出建议,等等。虽然在诸如KNIME和RapidMiner等交互套件中已经提供了一些有限形式的帮助,但挑战是将这种帮助扩展到整个数据科学过程。

在这里,我们将讨论组织成与四个象限相对应的部分图1,强调了相关的三种自动化形式。因为活动是按象限排列的,而不是按特定顺序排列的阶段,所以我们从模型建立这似乎是最适合自动化的,然后再讨论其他象限。

回到顶部

模型的建立:AutoML的成功故事

在构建模型的上下文中(图1),机器学习方法在数据科学家的工具箱中具有显著的特点,特别是因为它们倾向于以目标函数的形式形式化,这些目标函数与定义良好的任务类别直接相关。

机器学习方法在过去20年里变得非常突出,包括相对复杂的方法,如深度学习。这些机器学习方法的自动化引发了一个被称为AutoML的研究领域,可以说是迄今为止在整个数据科学过程中自动化最成功和最明显的应用(例如,Hutter等人)。22).在许多情况下,它假定有足够数量的高质量数据;满足这个假设通常会带来挑战,我们将在本文后面的章节中解决这个问题(参见Ratner et al.)。34).

虽然机器学习的问题和方法有不同的类别,包括有监督、无监督、半监督和强化学习,但对于有监督学习来说,目标函数的定义及其优化是最直接的(如在“从机器学习到自动机器学习”)。关注监督学习,有许多方法来完成这一任务,通常有多个超参数,其值可以对给定模型的预测精度产生重大影响。

面对大量机器学习算法和更大的超参数设置空间的选择,即使是经验丰富的专家通常也必须通过实验来确定在每个用例中哪种方法最有效。自动机器学习试图将这一过程自动化,因此不仅为专家节省了大量的、通常是繁重的实验的时间和精力,而且还使非专家能够获得比其他方法更好的性能。AutoML系统通常以相当高的计算成本实现这些优点。

值得注意的是,AutoML完全属于自动化的第一种形式,机械化,正如在介绍中所讨论的。同时,它可以被看作是一系列自动化阶段的另一个抽象层次。首先,编程用于自动化是众所周知的。第二,机器学习自动生成假设和预测模型,它们通常采用算法的形式(例如,在决策树或神经网络的情况下);因此,机器学习方法可以被视为自动化编程任务的元算法,因此称为“自动化自动化”。第三,自动化机器学习利用了选择和配置机器学习算法的算法——也就是说,可以理解为自动化的自动化的自动化的元-元算法。

AutoML系统已经逐渐自动化了更多的任务:模型选择、超参数优化和特征选择。许多这样的系统还处理基于给定数据集的属性(所谓的元特征)自动选择学习算法,建立在元学习的相关领域上。4一般来说,AutoML系统基于复杂的算法配置方法,如SMAC(基于顺序模型的算法配置),21学习排序和蒙特卡罗树搜索。33

到目前为止,AutoML的大部分工作都集中在监督学习上。Auto-WEKA,41是最早的AutoML系统之一,建立在著名的Weka机器学习环境之上。它包含了Weka标准发行版中实现的所有分类方法,包括许多基本分类器、特征选择技术、可以构建任何基本分类器的元方法,以及构建集成的方法。Auto-WEKA 225此外,还处理了回归过程,并允许通过与Weka环境的深度集成来优化Weka支持的任何性能指标。Auto WEKA核心的复杂优化过程是由SMAC执行的。Auto-sklearn12使用了基于python的机器学习工具包scikit-learn,也由SMAC提供支持。与Auto-WEKA不同,Auto-sklearn首先确定多个基本学习过程,然后将这些过程贪婪地组合成一个集成。

这些AutoML方法现在正在进入大规模的商业应用程序,例如,非专家可以更容易地构建相对复杂的监督学习模型。AutoML最近的工作包括神经架构搜索(NAS),它将神经网络架构设计的关键方面自动化,特别是(但不是唯一的)深度学习(例如,Liu等人)。28).谷歌Cloud的专有AutoML工具于2018年初推出,属于这类重要但受限制的AutoML方法。类似地,亚马逊SageMaker是2017年底推出的一项商业服务,提供了一些AutoML功能,涵盖了广泛的机器学习模型和算法。

AutoML系统所达到的令人印象深刻的性能水平在最近的比赛中得到了明显的体现。17值得注意的是,在2015/2016 ChaLearn AutoML挑战赛的人类赛道上,Auto-sklearn的表现明显优于人类专家。然而,同一场竞赛的结果表明,人类专家可以通过手动调整从最佳AutoML系统中获得的分类和回归算法来实现显著的性能改进。因此,对于标准的监督学习设置,目前的AutoML系统似乎有相当大的改进空间。

其他系统,如自动统计学家,29处理不同类型的学习问题,如时间序列,不仅要找到模型的最佳形式,而且要找到模型的参数。我们将在关于的一节中重新讨论这项工作剥削。

数据科学中模型构建任务的自动化已经取得了显著的成功,特别是在监督学习方面。我们认为,这主要是因为这些任务通常是非常精确地指定的,并且相对较少地依赖于给定的域图1),因此特别适合机械化。相反,标准监督学习之外的任务,如无监督学习,已被证明很难有效地自动化,因为优化目标更主观和领域相关,涉及准确性、效率、鲁棒性、可解释性、公平性等之间的权衡。这样的机器学习方法,通常用于特征工程,领域理解,数据转换等,因此延伸到剩下的三个象限,我们相信,在这三个象限中,使用引言中看到的另外两种自动化可以获得更多的进展:作文而且援助。

回到顶部

数据工程:大收获,大挑战

数据科学家一生中很大一部分时间都花在获取、组织和准备数据以进行分析上,我们统称这些任务工程数据。一个数据工程的目标是创建可用于进一步分析或探索的统一数据。这项工作既耗时又费力,因此自然而然地成为自动化的目标。然而,它面临着更加开放的挑战,因为它的位置图1

为了说明数据工程中涉及的各种任务,请考虑以下研究2苔原上的灌木生长如何受到全球变暖的影响。生长是通过许多性状来衡量的,比如植株高度和叶面积。为了进行这一分析,作者必须:集成来自另一个数据集的温度数据(使用纬度、经度和日期信息作为键);规范植物名称,记录的植物名称有一些变化(包括错别字);处理由于缺少关键数据而无法集成温度和生物数据的问题;并且通过去除一个特定分类单元的观测值来处理异常,这些观测值与平均值相差超过8个标准差。

通常,在数据工程过程中有许多阶段,它们之间存在潜在的反馈循环。这些可以分为三个高级主题,围绕数据组织,数据质量而且数据转换32我们将依次讨论。有关相关问题的不同结构,参见Heer等人。19

从第一阶段开始,数据组织,第一步通常是数据解析,确定数据的结构,以便将其导入数据分析软件环境或软件包中。另一个常见步骤是数据集成,目的是获取、合并和重组可能存在于异构源(例如,平面文件、XML、JSON、关系数据库)和不同位置的数据。它还可能需要以不同的空间分辨率或不同的时间尺度排列数据。有时原始数据可能以非结构化或半结构化的形式提供。在这种情况下是有必要进行的信息提取把相关的信息整理成表格。例如,自然语言处理可以用于从文本中提取信息的任务(例如,识别人名或地名)。理想情况下,数据集应该用数据字典或元数据存储库,它指定表中每个属性的含义和类型等信息。然而,这往往是缺失的或过时的,有必要从数据本身推断这些信息。对于属性的数据类型,这可能是在语法级别(例如,属性是一个整数或日历日期),也可能是在语义级别(例如,字符串都是国家,可以链接到知识库,如DBPedia)。6


数据科学中模型构建任务的自动化已经取得了显著的成功,特别是在监督学习方面。


FlashExtract27是为分析人员的信息提取任务提供帮助的工具示例。它可以通过一些例子学习如何从半结构化数据集中提取记录;看到图2插图。第二个辅助工具是Data-Diff,39它集成了分期接收的数据,例如通过每月或每年更新的方式。数据的结构可能在分期之间发生变化,这是很常见的,例如,如果有新的信息可用,则添加一个属性。接下来的挑战是通过匹配不同更新之间的属性来集成新数据。DataDiff使用了统计分布属性的值应该在分期之间保持相似,以自动化匹配过程。

f2.jpg
图2。FlashExtract。27

在数据工程的第二阶段,数据质量在美国,一项常见的任务是标准化,涉及将具有多种可能表示形式的实体转换为标准格式的过程。这些可能是格式为“(425)-706-7709”或“416 123 4567”的电话号码,或者文本,例如“U.K.”和“United Kingdom”。在后一种情况下,标准化需要使用包含有关缩写的信息的本体。缺失的数据条目可以表示为“NULL”或“N/A”,但也可以用其他字符串表示,如“?”或“-99”。这就产生了两个问题:在分析中识别缺失的值和在下游处理它们。如果数据被异常或异常值损坏,就会出现类似的识别和修复问题。因为只看数据的分布可以做很多事情,许多数据科学工具包括(半)自动化算法的数据imputation和离群值检测,这将属于机械化援助形式的自动化。

最后,根据数据转换标题中,我们考虑数据工程和模型构建或数据探索之间的接口过程。特征工程包括基于分析人员的知识或信念构建特征。当数据涉及传感器读数、图像或其他低级信息时,可能需要信号处理和计算机视觉技术来确定或创建可用于下游的有意义的特征。数据转换还包括实例选择,例如,用于处理不平衡数据或处理由于偏见而导致的不公平。

还有数据工程中的个别任务,我们已经看到了辅助自动化可以有帮助,也有需要作文的任务。例如,在提取、转换和加载(ETL)系统中可以发现这种对组合的关注,它通常由一组脚本支持,这些脚本结合了数据抓取、源集成、清理和数据上的各种其他转换。

数据工程更集成的方法的一个例子,它显示了组合自动化和辅助自动化的两个方面,是预测的相互作用框架。18这种方法为分析人员提供交互式建议,告诉他们在特定阶段应该应用哪些数据工程操作,以及合适的领域特定语言,这些想法构成了Trifacta的商业数据处理软件的基础。另一个有趣的方向是基于一个叫做数据编程,它通过为监督机器学习任务编程创建和建模数据集的方式利用领域知识。34

AutoML中的方法也可能有助于数据工程。例如,Auto-sklearn12在搜索空间中包含了简单缺失数据补入和分类特征单热编码等预处理步骤。但是,这些步骤可以看作是数据质量主题的一小部分,只有在围绕数据组织和其他数据质量步骤(例如识别的缺失数据)进行了研究。这些早期的步骤是开放的,因此在AutoML搜索过程中不太容易包含。

虽然与存储、聚合和数据清理相关的许多活动已经被最近的数据库技术显著地自动化了,但仍然存在重大挑战,因为数据工程通常是表示和集成步骤上的迭代过程,涉及来自非常不同来源和不同格式的数据,步骤之间的反馈循环会引发新的问题(例如,Heer等人。19).例如,在Tundra的例子中,人们必须知道集成生物和温度数据是很重要的,数据必须是足够接近的格式,以便应用转换,并且需要领域知识来融合不同的植物名称。

由于所有这些数据工程挑战占用了分析师大量的时间,因此有动机尽可能多地将它们自动化,因为收益可能很高。然而,做得不好可能会对数据科学项目的结果产生严重的负面影响。我们相信,除了一些特定的任务,数据工程的许多方面不太可能很快实现完全自动化,但无论如何,在辅助半自动化和组合半自动化方向上的进一步发展都将是富有成效的。

回到顶部

数据探索:更多的辅助而不是自动化

继续我们关于象限的讨论图1,我们接下来关注数据探索。数据探索的目的是从给定的数据(例如,在遗传学领域,理解特定基因、生物过程和表现型之间的关系),通常为后续分析确定更精确的目标(例如,在零售领域,发现一些变量解释了为什么顾客的行为不同,建议对这些变量进行细分)。人类洞察力在数据探索中的关键作用表明,在这个象限盛行的自动化形式是援助,通过生成可以帮助人类达到这种洞察力的元素。我们将把所有这些易于人类洞察的元素统称为模式捕获数据的某些方面或部分,这些方面或部分对数据分析师或领域专家来说可能是惊人的、有趣的、有价值的或显著的,因此值得进一步研究或利用。模式可以有多种形式,从非常简单的(例如,仅仅报告数据或其子集的摘要统计信息)到更复杂的(网络中的社区或低维表示)。

当代数据探索技术的起源可以追溯到杜克和威尔克,43他强调了人类参与数据分析的重要性,特别是在旨在“暴露意外”的数据分析任务中——后来由Tukey42和其他人。

EDA的目标被描述为假设生成,并与验证分析方法进行了对比,例如第二步中的假设检验。从20世纪70年代EDA的早期开始,用于数据探索的方法的阵列、数据的大小和复杂性、可用的内存和计算能力都有了极大的提高。虽然这创造了前所未有的新潜力,但它的代价是更大的复杂性,因此产生了自动化的需求,以在此过程中协助人工分析师。

举个例子,‘inquire’系统48提供了自动化数据探索的远景,将其作为一个动态和交互的过程,允许系统学习理解分析师的发展背景和意图,使其能够主动显示“有趣的”模式。FORSIED框架8有一个类似的目标,将数据探索过程形式化为数据和数据分析师之间的信息交互交换,考虑分析师先前的信念状态。这些方法与更传统的数据探索方法形成对比,在传统的数据探索方法中,分析人员在耗时费力的过程中反复查询数据以获得特定的模式,希望其中的一些模式是有趣的。这个远景意味着数据探索的自动化需要识别分析师对领域知道(和不知道)什么,这样知识和目标,而不仅仅是模式,就可以被系统连接起来。

为了调查自动化的可能性和可取程度,在不详尽的情况下,确定数据探索中五个重要和常见的子任务是有帮助的,如相关框中为一个特定用例(社会网络分析)所说明的那样。这五个问题在“社交网络分析中的五个数据探索子任务”。

图案的形式(子任务1)通常由数据分析人员指定,也就是说,在选择该表单时,用户的参与是不可避免的。事实上,某些类型的模式可能对数据分析师更容易理解,或者可能对应于物理现实的模型。如方框所示,计算社会科学家可能对在社会网络中寻找密集的子网络感兴趣,以此作为紧密社会结构的证据。

通常有太多可能的模式。因此,一种量化数据分析人员对任何给定的这类模式的兴趣程度的度量方法(子任务2)。这里,“趣味性”可以定义为覆盖面、新颖性、可靠性、独特性、多样性、惊喜性、实用性或可操作性;此外,可以客观地(仅依赖于数据)、主观地(也依赖于数据分析师)或基于数据的语义(因此也依赖于数据域)量化这些标准中的每一个。14很好地设计这个度量是至关重要的,但也是非常重要的,这使得它成为自动化的主要目标。自动化这个子任务可能需要理解数据分析师的意图或偏好,35模式的可感知复杂性,以及数据分析师对数据领域的背景知识——所有这些都需要与数据分析师进行交互。后者尤其与以主观方式将新奇性和惊奇性形式化相关,近年来,利用信息理论方法在这一方向上取得了重大进展。8

下一个阶段(子任务3)是识别需要算法来优化所选的度量。原则上,使用更高级别的自动化来促进这项任务是很有吸引力的,就像在AutoML中所做的那样。但是,考虑到跨应用程序的数据的多样性、模式类型的多样性以及量化任何给定模式有多有趣的大量不同方法,不同的数据探索任务可能需要不同的算法方法来寻找最有趣的模式,这是有风险的。考虑到设计这种算法的挑战,我们认为可能需要更通用的技术或声明性的方法(如归纳数据库和概率编程,在本文的最后一节中讨论)来取得进展作文而且援助此子任务的自动化形式。

一个数据探测系统的用户界面经常介绍了数据,以可视化的方式识别其中的模式的方式(子任务4)。这使得利用人类视觉系统强大的感知能力成为可能,这在视觉分析社区几十年的研究中已经得到了开发和增强。23同时,视觉分析中固有的多重比较问题可能需要采取步骤来避免错误的发现。51在一些预定义的可视化之外自动化子任务4(如在自动统计人员中,请参阅图3)需要很好地理解每个用户的特定感知和认知能力和偏好,这个问题也是可解释人工智能相关领域的突出特征,我们将讨论这个问题。

f3.jpg
图3。“航空公司”数据集的自动统计学家报告的片段,该数据集考虑了从1949年到1961年期间的航空公司客运量。29

这样的可视化和其他类型的工具导航数据必须考虑丰富而直观的交互形式(子任务5),以减轻典型数据探索任务的开放性。它们必须允许分析师跟踪线索,通过深入研究验证或改进假设,并向数据探索系统提供关于什么是有趣的,什么是不有趣的反馈。自动化面临的一个巨大挑战是,如何给新手数据分析师专家可能使用的类型的提示和建议,协助在数据导航的过程中,从组合爆炸的方式查看数据和可能的类型的模式。例如,SeeDB45和“航行者”号49系统交互地推荐可能特别有效的可视化交互意图建模35提出了在信息检索应用中提高信息检索效率的方法。


重要的是要提高对数据科学中更高水平自动化的潜在陷阱和副作用的认识。


这五个子任务各自都具有挑战性,并且包含许多可能需要专业知识的设计选择。我们认为,当前人工智能技术在获取和处理现实世界领域中的人类知识方面的局限性是这一象限的自动化通常以的形式的主要原因援助。同时,我们应该认识到上述子任务不是独立的,因为它们必须通过作文自动化的形式,以有效地帮助数据分析师和非专业用户,在他们的搜索新的见解和发现。

回到顶部

开发:现实世界中的自动化

右下象限图1通常在必须将来自其他任务的见解转换回应用程序领域时达到,通常(但不总是)以预测的形式,或者更一般地说,以决策的形式。这个象限处理提取知识更少的是数据,涉及到对模式和模型的理解,将它们作为新发现的构建模块发布(例如,在科学论文或报告中),将它们付诸实践,验证和监视它们的运行,并最终修改它们。这个象限通常不太开放,因此这里的某些特定活动(如报告和维护)可以高度自动化也就不足为奇了。

对提取的知识的解释与可解释或可解释的机器学习领域密切相关。最近的调查涵盖了可以做出解释的不同方式,但没有分析自动化的程度和形式(例如,Guidotti等。16).显然,自动化的潜力很大程度上取决于是否需要模型的通用解释(全局解释)或单个预测(局部解释),以及解释是否必须根据用户的背景、期望、兴趣和个性为其定制或与用户交互。解释必须超越对模型和预测的检查或转换,并且应该包括与这些预测相关的变量,错误的分布和可靠的数据类型,模型的弱点,它的不公平程度,等等。下面是一个突出的例子机械化自动化的一种形式是自动统计员,b29它可以生成关于所生成模型的文本报告(针对有限的问题类集)。图3显示这样的报告的一个片段,包括获得的模型及其行为的最相关特征的图形表示和文本解释。

我们相信,充分理解模型的行为和效果,以及在数据科学管道的早期阶段产生的见解,是整个过程验证的组成部分,也是成功部署的关键。然而,“内部”评估,通常与模型构建相结合,或在模型构建之后立即进行在实验室里,试图最大化持有数据的某些指标。相比之下,验证在现实世界中指的是满足某些目标,与此相关的数据、目标函数和过程的其他元素可能并不完全一致。因此,“外部”验证的广泛视角为自动化带来了额外的挑战,因为领域上下文扮演着更重要的角色(图1).在某些领域尤其如此,在准确性和公平性指标之间的权衡优化可能最终仍会产生不受欢迎的长期全球影响,或者在一些安全关键领域,对实际系统进行试验是昂贵的,而且有潜在危险,例如在医疗应用或自动驾驶领域。克服这些挑战的一种非常有前途的方法是使用模拟,模拟应用程序领域的一个重要部分,可以是医院11或一个城市。“数字双胞胎”的概念40允许数据科学家在现实世界的数字副本中部署他们的模型和见解,理解和利用因果关系,预测影响和风险,并优化最佳解决方案。在AutoML场景中已经被证明非常有用的优化工具可以用于导出从数字孪生到现实世界的全局最优决策,前提是模拟器是所需抽象级别上的精确模型。数字双胞胎还可以作为模拟数据的来源,用于整个数据科学过程的进一步迭代。

随着决策的增多、模型的产生和组合,以及许多用户的参与,部署变得更加复杂。因此,我们主张自动化模式维护而且监控正变得越来越重要。这包括跟踪在培训和操作过程中产生的模型、见解和决策之间的所有依赖关系,特别是在需要重新培训的情况下,36在许多方面类似于软件维护。监视训练过的模型的某些方面似乎相对简单和自动化,通过定期重新评估指标(错误度量、公平性,以及其他)并标记重要的偏差,作为自动化的辅助形式的一个清楚的例子,它允许广泛的重用。一旦模型被认为不适合或降级,重新训练到一些从原始数据转移的新数据似乎很容易机械化(重复实验),但这取决于最初使用的操作条件在数据转移后是否仍然成立。即使在新的或不断变化的环境中,通过领域适应、迁移学习、终身学习或重构,可靠且易于理解的模型也常常可以被重用;20.这代表了一种更组合的自动化形式。

数据科学创建了许多模式、模型、决策和元知识。模型和模式的组织和重用可以在一定程度上通过归纳数据库实现自动化数据库的模型(例如,机器学习模型管理46),或通过大型实验平台,如OpenML。c最后,我们相信自动化知识对数据科学活动的管理和分析将是自动化的自然演变数据管理和分析。

回到顶部

观点和前景

在数据分析和科学发现的大背景下,对自动化的追求并不新鲜,它跨越了统计、人工智能(AI)、数据库和编程语言等领域数十年的工作。现在,在得出一些最终结论之前,我们依次讨论这些观点。

首先,人工智能有一个悠久的传统,试图将科学发现过程自动化。许多研究人员试图用人工智能来理解、建模和支持广泛的科学过程,包括利用认知模型进行科学发现的方法(如开普勒定律)。26最新的科学发现模型包括机器人科学家,24这是一种机器人系统,设计和执行实验,以找到模型或理论,例如,在生命科学领域。虽然这些尝试包括实验设计和不仅仅是观察数据,但它们也专门针对特定的领域,减少了领域上下文(垂直维度)的挑战图1).这一领域仍存在许多重要挑战,包括从非常稀疏的数据中归纳或修正理论或模型;知识在领域之间的转移(众所周知,这在科学过程中发挥着重要作用);方法设计(包括实验)与从数据中归纳知识之间的相互作用;以及科学家与先进的计算方法之间的互动,旨在支持他们在科学发现过程中。

其次,在20世纪80年代和90年代,统计和人工智能的接口方面有一些努力,开发可以构建模型或探索数据的软件系统,通常以交互的方式,使用启发式搜索或基于专家知识的规划(例如,Gale)13St. Amant等人。38).这一研究路线遇到了知识表示的限制,它被证明不足以捕捉专家数据分析师使用的统计策略的微妙之处。今天,“机械化”统计数据分析师的想法仍在被追求(参见自动统计学家)29),但认识到统计建模经常严重依赖于人的判断,以一种不容易正式捕获的方式,在右上象限之外图1.这时作文而且援助当将模块化数据分析操作结合到当前数据科学平台(如KNIME和Weka)的计划或工作流中,或以智能数据科学助手的形式时,这些自动化形式仍然是目标。37

第三,在数据库上下文中,归纳查询语言的概念允许用户查询数据中包含的模型和模式。模式和模型成为“一等公民”,希望将数据科学中的许多活动简化为查询过程,在查询过程中,从一个查询获得的见解导致下一个查询,直到找到所需的模式和模型。这些系统通常基于SQL和其他关系数据库语言的扩展(例如,Blockeel等)。3.).以查询或编程的方式进行数据科学可能有助于在自动化的组成和机械化形式之间架起桥梁。

第四,近年来,人们越来越关注概率编程语言,它允许复杂概率模型的表达和学习,扩展或结合一阶逻辑。9概率编程语言已经被用于民主化数据科学的工具中,例如BayesDB30.和表格,15在表格数据库和电子表格的基础上建立概率模型。例如,概率规划还可以将不确定性从缺失数据的imputation方法传播到预测分析中,并将背景知识纳入分析中。通过增加四个象限的集成,这可能支持一个更全面的自动化观点图1,可能会发生相应的变异。

这四种方法都在特定领域或标准情况下取得了一些成功,但仍缺乏数据科学中更广泛应用所需要的通用性和灵活性,因为该学科以这些系统无法吸收的速度吸收新方法和技术。需要更多的科学和社区发展来弥合数据科学家如何开展工作与这种方法所能提供的自动化支持水平之间的差距。伴随表格提出了自动化数据科学的一系列指示性技术挑战。

ut1.jpg
表格选定自动化数据科学中的研究挑战,及其相关象限和自动化的可能形式(机械化、合成和辅助)。

虽然AutoML将继续成为数据科学中自动化的旗舰范例,但我们预计未来几年的大部分进展将涉及建模以外的阶段和任务。获取关于数据科学家如何工作的信息,以及数据科学项目如何从概念发展到部署和维护,将是更雄心勃勃的工具的关键。强化学习等人工智能领域的进展可以加速这一进程。

重要的是要提高对数据科学中更高水平自动化的潜在陷阱和副作用的认识。这包括过度依赖从系统和工具获得的结果;引入微妙且难以察觉的错误;以及对现有工具促进的某些类型的观察、模型和见解的认知偏见。此外,在人类与人工智能合作的背景下,数据科学工具被视为取代数据科学家的工作实践,导致新的角色。47同样,这种协作的观点提出了数据科学家和机器之间交互的新形式,因为它们成为了主动的助手,而不是工具。1

考虑到这一切,我们谨慎地做出以下预测。首先,在数据科学自动化的三个最容易获得的象限中,似乎有可能继续取得有用和重大的进展图1:数据工程(例如,缺失数据推理和特征构建的自动化),模型构建(例如,AutoML当前范围之外的自动化选择、配置和调优),以及开发(例如,用于模型诊断和总结的自动化技术)。其次,对于数据探索中最具挑战性的象限,以及需要表示领域知识和目标的其他象限中的任务,我们预计进展将需要更多的努力。第三,在全方位的数据科学活动中,我们看到了自动化辅助形式的巨大潜力,通过补充人类专家的系统,跟踪和分析工作流程,发现错误,检测和暴露偏差,并提供高级建议。总的来说,我们期望对更好地与人类经验和领域专业知识相结合的方法和工具的需求增加,强调补充和加强人类专家的工作,而不是完全机械化。

回到顶部

致谢

作者感谢匿名审稿人的评论,他们的评论帮助改进了文章。

*资金信息。

TDB:欧盟第七框架计划下的欧洲研究理事会(FP7/2007-2013) / ERC资助协议no。615517.弗拉芒政府的"Onderzoeksprogramma Artificiële Intelligentie Vlaanderen"方案。弗兰德斯科学研究基金(ffo - vlaanderen),项目编号:G091017N G0F9816N 3 g042220。

LDR:本研究报告的研究得到了欧洲研究理事会在欧盟Horizon 2020研究和创新计划(资助协议号[694980]SYNTH:合成归纳数据模型)下的支持,欧盟H2020 ICT48项目“TAILOR”合同#952215;佛兰德政府的“Onderzoeksprogramma Artificiële Intelligentie Vlaanderen”计划以及由克努特和爱丽丝·瓦伦堡基金会资助的瓦伦堡人工智能、自主系统和软件计划。

欧盟(FEDER)和西班牙MINECO, Grant: RTI2018-094403-B-C3。瓦伦西亚纳将军,格兰特:PROMETEO/2019/098。FLI,格兰特rfp2 - 152。麻省理工-西班牙INDITEX可持续发展种子基金。格兰特:FC200944。欧盟H2020。授权:ICT48项目“TAILOR”合同#952215。

HHH:本研究报告的研究部分得到了欧盟H2020 ICT48项目“TAILOR”合同#952215的支持;欧盟项目H2020-FETFLAG-2018-01,“人道人工智能”,合同号820437,莱顿大学提供启动资金。

PS:本材料是基于美国国家科学基金会支持的工作,奖项DGE-1633631, isis -1900644, isis -1927245, DMS-1839336, CNS-1927541, CNS-1730158, DUE-1535300;由美国国立卫生研究院资助,项目为1U01TR001801-01;NNX15AQ06A。

CKIW:这项工作得到了英国工程和物理科学研究委员会(EPSRC)向艾伦·图灵研究所提供的EP/N510129/1拨款的部分支持。他感谢图灵研究所的人工智能数据分析团队进行了许多有益的对话。

uf1.jpg
数字观看作者在独家报道中讨论这项工作通信视频。//www.eqigeno.com/videos/automating-data-science

回到顶部

参考文献

1.Amershi, S.等。人机交互指南。在2019年计算系统中的人为因素CHI会议论文集, 2019年,1-13。

2.比约克曼等人。在变暖的苔原生物群中,植物的功能性状发生了变化。大自然562年, 7725(2018), 57。

3.H.布洛克尔,T.考尔德斯,弗罗蒙特,É。,去ethals, B., Prado, A., and Robardet, C. An inductive database system based on virtual mining views.数据挖掘与知识发现, 1(2012), 247-287。

4.布拉迪尔,P.;开利,C.;苏亚雷斯,C.;金属学:数据挖掘的应用。施普林格科学与商业媒体,2008。

5.查普曼,p等。分步数据挖掘指南,2000年。

6.Chen, J., Jimenez-Ruiz, E., Horrocks, I.和Sutton, C. ColNet:嵌入用于列类型预测的Web表语义。在33人会议记录理查德·道金斯人工智能会议, 2019年。

7.达苏,T和约翰逊,T。探索性数据挖掘与数据清理。威利,2003年。

8.探索性数据挖掘中的主观兴趣。在《实习生会议录》计算机协会。智能数据分析。胜38负,2013岁的施普林格。

9.De Raedt, L., Kersting, K., Natarajan, S.和Poole, D.统计相关人工智能:逻辑,概率和计算。人工智能与机器学习综合讲座, 2(2016), 1-189。

10.Donoho博士,50年的数据科学。J.计算和图形统计, 4(2017), 745-766。

11.Elbattah, M.和Molloy, O.使用机器学习引导的模拟进行分析,并应用于医疗保健场景。分析和知识管理。奥尔巴赫的出版物, 2018, 277 - 324。

12.Feurer, M., Klein, A., Eggensperger, K., Springenberg, J., Blum, M.和Hutter, F.高效和健壮的自动机器学习。神经信息处理系统的研究进展, 2015, 2962 - 2970。

13.人工智能和知识工程的统计应用。知识工程版本2, 4(1987), 227-247。

14.耿磊。数据挖掘中趣味性度量的研究。ACM计算调查383(2006), 9。

15.A. Gordon, Graepel, T., Rolland, N., Russo, C., Borgstrom, J.和Guiver, J. Tabular:一种模式驱动的概率编程语言。ACM SIGPLAN通知, 1(2014), 321-334。

16.Guidotti, R., Monreale, A., Ruggieri, S., Turini, F., Giannotti, F.和Pedreschi, D.解释黑箱模型的方法的调查。ACM计算调查515(2018)。93.

17.盖恩,我,等等。ChaLearn AutoML挑战赛:无人为干预的任意时间任意数据集学习。在自动机器学习研讨会论文集(2016), 21 - 30。F. Hutter, L. Kotthoff和J. Vanschoren, Eds。

18.Heer, J. Hellerstein, J.和Kandel, S.数据转换的预测交互。在创新数据系统研究会议论文集, 2015年。

19.Heer, J., Hellerstein, J.和Kandel, S.数据争论。大数据技术百科全书。S. Sakr和A. Zomaya, Eds。施普林格,2019年。

20.Hernández-Orallo, J.,等。上下文重构:机器学习中模型重用的一种系统方法。AI Commun。29, 5(2016), 551-566。

21.Hutter, F., Hoos, H.和Leyton-Brown, K.基于顺序模型的通用算法配置优化。在《实习生会议录》学习与智能优化研讨会。施普林格,2011年,507 - 523。

22.F.哈特,科特霍夫,L.和J.范舍伦,爱德华。自动机器学习-方法,系统,挑战。施普林格,2019年。

23.Keim, D., Andrienko, G., Fekete, J., Görg, C., Kohlhammer, J.,和Melançon, G.视觉分析:定义,过程和挑战。信息可视化。施普林格,2008年,154 - 175。

24.金,R.,等。机器人科学家的功能基因组假说生成和实验。大自然427年(2004, 46)。

25.Kotthoff, L., Thornton, C., Hoos, H., Hutter, F.和Leyton-Brown, K. Auto-WEKA 2.0: WEKA中的自动模型选择和超参数优化。J.机器学习研究, 1(2017), 826-830。

26.兰利(P. Langley),西蒙(Simon, H.),布拉德肖(Bradshaw, G.)和泽特科(Zytkow, J.)科学发现:创造性过程的计算探索。麻省理工学院出版社,1987年。

27.Le, V.和Gulwani, S. FlashExtract:一个实例数据提取框架。在35届会议记录thACM SIGPLAN编程语言设计与实现会议, 2014, 542 - 553。

28.刘,C.,等。渐进神经结构搜索。在计算机视觉欧洲会议论文集, 2018年,19-34。

29.Lloyd, J., Duvenaud, D., Grosse, R., Tenenbaum, J.和Ghahramani, Z.非参数回归模型的自动构造和自然语言描述。在28人会议记录th人工智能会议,2014年。

30.Mansinghka, V., Tibbetts, R., Baxter, J., Shafto, P.和Eaves, B. BayesDB:用于查询数据可能含义的概率编程系统。2015;arXiv: 1512.05006。

31.Martínez-Plumed, F.等。20年后的CRISP-DM:从数据挖掘过程到数据科学轨迹。IEEE反式。知识与数据工程(2020), 1;doi 10.1109 / TKDE.2019.2962680。

32.A. Nazabal, Williams, C. Colavizza, G. Smith, C.和Williams, A.数据分析的数据工程:问题的分类和案例研究。2020;arXiv: 2004.12929。

33.Rakotoarison, H. Schoenauer, M.和Sebag, M.使用蒙特卡罗树搜索的自动机器学习。在28人会议记录th实习生。人工智能联合会议、(2019);doi: 10.24963 / ijcai.2019/457;https://doi.org/10.24963/ijcai.2019/457

34.Ratner, A., De Sa, C., Wu, S., Selsam, D.和Ré, C.数据编程:快速创建大型训练集。在30人会议记录th实习生。神经信息处理系统会议, 2016, 3574 - 3582。

35.Ruotsalo, T., Jacucci, G., Myllymäki, P.和Kaski, S.交互意图建模:超越搜索的信息发现。Commun。ACM 58, 1(2014年1月),86-92。

36.斯卡利、d等人。机器学习系统中隐藏的技术债务。神经信息研究进展。处理系统28,(2015), 2503 - 2511。

37.Serban, F., Vanschoren, J., Kietz, J.和Bernstein, A.用于数据分析的智能助手的调查。ACM计算调查45, 3(2013), 1-35。

38.St. Amant, R.和Cohen, P.探索性数据分析的智能支持。J.计算和图形统计, 4(1998), 545-558。

39.C. Sutton, Hobson, T., Geddes, J.和Caruana, R.数据差异:用于数据争论的分布变化的可解释的可执行摘要。在二十四人会议记录thACM SIGKDD知识发现和数据挖掘会议, 2018年。

40.陶,f和祁,q,多生几个数字双胞胎。大自然573年(2019), 490 - 491。

41.C. Thornton, Hutter, F. Hoos, H.和Leyton-Brown, K. Auto-WEKA:分类算法的组合选择和超参数优化。在十九届会议记录thACM SIGKDD实习生。知识发现与数据挖掘研讨会, 2013, 847 - 855。

42.探索性数据分析。皮尔森,1977年。

43.数据分析与统计:一个说明性的概述。在1966年秋季联合计算机会议论文集。(1966年11月7日- 10日),695-709。

44.Vanschoren, J., Van Rijn, J., Bischl, B.和Torgo, L. OpenML:机器学习中的网络科学。ACM SIGKDD探索通讯, 2(2014), 49-60。

45.Vartak, M., Rahman, S., Madden, S., Parameswaran, A.和Polyzotis, N. SeeDB:支持可视化分析的高效数据驱动的可视化建议。在《实习生会议录》关于超大数据库的讨论(2015), 2182。

46.Vartak, M.等人。ModelDB:用于机器学习模型管理的系统。在ACM人在环数据分析研讨会论文集, 2016年,14所示。

47.王东,等。数据科学中的人-人工智能协作:探索数据科学家对自动化人工智能的看法。在计算机计算机学会人机交互会议论文集2019 - 24。

48.Wasay, A., Athanassoulis, M.和Idreos, S.查询:自动数据探索。在2015年IEEE实习生会议记录。大数据大会, 716 - 719。

49.Wongsuphasawat, K., Moritz, D., Anand, A., Mackinlay, J., Howe, B.和Heer, J.旅行者:通过可视化推荐的分面浏览进行探索性分析。IEEE反式。可视化与计算机图形学, 1(2015), 649-658。

50.伍尔德,M.,库普斯,N.,罗伊,D.,怀特,J.,和赫莫西拉,T.土地覆盖2.0。实习生。J.遥感39, 12(2018), 4254-4284。

51.Zgraggen, E., Zhao, Z., Zeleznik, R.和Kraska, T.研究多重比较问题在视觉分析中的影响。在2018年计算系统中的人为因素CHI会议论文集, 1 - 12。

回到顶部

作者

Tijl De Bietijl.debie@ugent.be)是比利时根特大学互联网与数据实验室(IDLab)的教授。

吕克·德Raedtluc.deraedt@kuleuven.be)是比利时鲁汶大学计算机科学系教授和鲁汶大学人工智能研究所主任,瑞典Örebro大学瓦伦堡客座教授。

何塞Hernandez-Orallojorallo@upv.es)是西班牙大学(Universitat Politècnica de València)瓦伦西亚人工智能研究所的教授。

Holger h .呼!hh@liacs.nl)是荷兰莱顿大学莱顿高级计算机科学学院(LIACS)的机器学习教授,也是加拿大温哥华英属哥伦比亚大学计算机科学的兼职教授。

Padhraic史密斯smyth@ics.uci.edu)是美国加州大学欧文分校计算机科学与统计学系的校长教授。

克里斯托弗K.I.威廉姆斯ckiw@inf.ed.ac.uk)是英国爱丁堡大学信息学学院机器学习教授,也是英国伦敦艾伦·图灵研究所的图灵研究员

回到顶部

脚注

a.数据争论和数据清理也是与这些阶段相关的术语。

b。https://www.automaticstatistician.com/

c。www.openml.org44

回到顶部

回到顶部


©2022 0001 - 0782/22/3 ACM

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2022 ACM, Inc.


没有发现记录

Baidu
map