数据科学是一门新兴的跨学科研究领域,其重点是从数据中提取价值,整合计算机科学、数学和统计学的知识和方法,是一个应用领域。机器学习是在计算机科学和统计学的交叉领域创建的领域,当考虑到应用领域时,它在数据科学中有许多应用。
从历史的角度来看,机器学习在过去50年左右被认为是人工智能的一部分。它主要在计算机科学系教授给科学家和工程师,因此,重点放在机器学习的数学和算法方面,而不考虑应用领域。因此,尽管机器学习也处理统计,它关注数据,并考虑应用领域,直到最近,大多数机器学习活动发生在计算机科学的背景下,计算机科学是它的起点,传统上关注算法。
然而,在过去十年中,数据科学的加速发展同时发生了两个过程。首先,机器学习作为数据科学的一个子领域蓬勃发展,并开始在各个学科中实施和使用。因此,研究人员意识到应用领域不能被忽视,在任何数据科学解决问题的情况下都应该考虑它。例如,了解数据在应用程序领域上下文中的含义,以便为训练阶段准备数据,并根据结果在现实世界中的含义来评估算法的性能,这是非常必要的。第二,各种各样的人开始学习机器学习课程,对他们来说,作为他们学科的专家,在数据科学解决问题的过程中考虑应用领域是固有和必要的。
向如此庞大的人口教授机器学习,同时又忽视了计算机科学系传统教授的应用领域,这是一种误导。这样的教学方法引导学习者忽略应用领域,即使它与大量使用机器学习的数据科学建模阶段相关。换句话说,当学生学习机器学习而不考虑应用领域时,他们可能会产生这样的印象,即机器学习应该这样应用,并习惯于忽略应用领域。这种思维习惯可能反过来影响他们未来的职业决策过程。
例如,考虑一位社会工作学科的研究人员,他上过机器学习课程,但没有接受过在解释数据分析时考虑应用领域的教育。研究人员现在被要求推荐一个干预方案。由于研究人员没有接受过考虑应用领域的教育,他或她可能会在检查中忽略关键因素,而只依赖于机器学习算法的推荐。
其他的例子是教育和交通,这些领域每个人都觉得他们了解。由于机器学习教育不考虑应用领域,这些领域的非专家可能认为他们在这些领域有足够的知识,可能不理解这些领域的专业知识在基于对机器学习算法输出的检查的决策过程中发挥的关键作用。例如,当医生或食品工程师没有接受过机器学习课程的培训或教育,无法分别基于他们在医学和食品工程方面的专业知识批评机器学习算法的结果时,这一现象就更加突出了。
因此,我们建议停止向核心学科既不是计算机科学也不是数学和统计学的人群教授机器学习课程。相反,这些人群应该只在数据科学的上下文中学习机器学习,这反复强调了在数据科学生命周期的每个阶段,特别是在机器学习发挥重要作用的建模阶段中应用领域的相关性。
如果我们的建议被接受,即仅在数据科学的背景下开设多学科的机器学习课程,不仅可以突出数据科学的跨学科性,也将进一步说明在数据科学解决问题的过程中不能忽视应用领域的认识。
不要教机器学习!教科学的数据!
Orit Hazzan是Technion科技教育系的教授;她的研究重点是计算机科学、软件工程和数据科学教育。迈克·库柏是Technion科技教育学院的博士生;他的研究重点是数据科学教育。
没有发现记录