acm-header
登录

ACM通信

BLOG@CACM

数据科学教育的十大挑战


当前的COVID-19大流行表明,理解数据不仅对科学家很重要,对所有人都很重要。为了理解流行媒体频道提供的关于大流行病的数据的含义,除了阅读和解释表格和图表的基本技能外,还需要对数据科学原理有基本的了解。

最近可用数据和机器能力的巨大增长增加了对数据科学家的需求,他们可以从这些数据中产生价值。这种需求反过来又导致许多机构提供数据科学课程(Berman, 2018)。然而,数据科学教育是一个具有挑战性和非常年轻的研究领域。

在本博客中,我们强调了数据科学教育的十个挑战。这些挑战被分为三类:(a)学科,(b)技能,(c)数据科学教育的环境,创建了缩写DSE,它也代表数据科学教育。

第一类-纪律

学科的挑战处理数据科学教与学的难点,源于数据科学的跨学科结构。

挑战1:跨领域

数据科学是一门交叉学科,它是计算机科学、数学和统计学以及数据领域知识的交叉学科, 2018)。由于这种复杂的结构,毫不奇怪,研究人员就该领域的确切结构表达了许多不同的观点、意见和报告。图1反映了这些图的共同精神。基于这种对数据科学结构的各种观点,开发了各种数据科学课程(Tang & sai -lim, 2018)。虽然这个图表看起来是对称的,但数据科学项目中不同主题之间需要的实际平衡仍然存在争议。

图1。数据科学的维恩图

挑战2。数据域

虽然图1所示的维恩图中的数据域仅用一个在实践中,数据科学与许多不同的领域相关,如经济、教育、心理学、医学和体育。Skiena(2017)指出,做数据科学的一个基本原则是需要理解数据的领域。然而,这些领域的多样性使得将领域知识整合到课程中以及向学生传达该领域在解决数据科学问题方面的重要性变得困难。

挑战3。概念的理解

对数据科学组成部分的教育研究表明,学习者在学习每一个组成部分领域时都面临困难。计算机科学教育界非常熟悉计算机科学教学的挑战。关于统计思维,心理学研究文献讨论了许多偏差,其中之一是基础概率忽视这反映了在解决需要使用贝叶斯推理的问题时忽略基本率(人口中不同类型的比例)的普遍谬误(Kahneman & Tversky, 1973)。然而,对于数据选择和机器学习算法结果的解释,贝叶斯推理是至关重要的,因此,挑战是如何(如果可能的话)提高学习者对自己偏见的意识。

挑战4。认知负荷

认知负荷理论试图解释我们在学习新概念时的工作记忆和长期记忆之间的相互作用(Sweller, Van Merriënboer, Paas, Van Merriënboer, & Paas, 2019)。我们的工作记忆是有限的,不像我们的长期记忆,长期记忆的容量是无限的,并且以不同复杂程度的模式组织。在模式被存储到长时记忆之前,它首先在工作记忆中被处理。

考虑到学生往往是新手程序员和新手统计学家,几乎没有领域知识(挑战2),可以推断出他们还没有构建这些领域的主要概念的模式。因为即使解决一个简单的数据科学问题也需要编写代码,并对来自某个领域的数据进行统计测试,因此可以合理地假设新手在工作后会经历认知负荷处理多个项目需要内存.当认知负荷过高时,无法分配构建新图式所需的认知资源,影响学习过程。

第2类-技能

技能的挑战参考成为专业数据科学家所需的技能。

挑战5。非技术技能

此外,数据科学家还需要掌握非技术技能,如批判性思维、专注阅读和有效沟通。伦理和研究技能在数据科学中特别重要,因此将在接下来的段落中单独讨论。

批判性思维是一个很好的例子,说明了在数据科学教育中教授和学习非技术技能的挑战。例如,众所周知,机器学习算法产生的模型并不总是可理解的(Elad, 2017)。Elad写道,“在大多数情况下,基于深度学习的解决方案缺乏数学上的优雅性,对找到的解决方案或对潜在现象的理解提供的解释性非常小”。因此,数据科学专业的学生在评估这种机器学习模型(如前所述,有时不容易理解)时必须使用批判性思维。

挑战6。道德

数据科学对职业道德规范的需求始于个人数据的使用,延续到与数据所有权相关的问题,最后到对如何使用数据的责任。由于道德规范和标准是一个垂直的主题,应该整合到任何研究的数据科学主题中,挑战是在具体课程中分别教授道德规范和标准之间找到正确的平衡edX课程“数据科学伦理”并在适当的情况下将其整合到所有的课程中(例如,萨尔茨., 2019年和Grosz, 2019)。

挑战7。研究技能

数据科学中任何有意义的工作都包括研究项目的基本阶段,包括提出研究问题、收集数据、分析数据和展示结果。因此,作为数据科学家教育的一部分,数据科学的学生应该获得一些研究技能。然而,研究技能通常是在研究生院或在本科学习的最后阶段获得的。在本科阶段引入数据科学,也要考虑到教学研究思维和研究方法。具体而言,应在数据科学导论课程中引入诸如决定研究所需数据的数量和类型以及选择和应用适当的模型和统计检验等问题。

类别3 -环境

环境的挑战数据科学项目的教学方法和数据科学学习者和教师的不同群体。

挑战8。现实生活中的任务

由于数据科学学生被要求处理领域知识(见挑战2),基于项目的学习(PBL)似乎是教授数据科学的一种合适的方法。PBL是一种让学习者从现实生活情境中解决问题的教学方法,因此,它有许多优点,包括主动学习和增强动机(Ramamurthy, 2016)。然而,PBL在数据科学教育中的应用带来了一些挑战,如项目评估,这是一个众所周知的困难任务。

挑战9。学习者

学生群体相当多样化,包括所有未来的公民,从人文和社会科学专业的学生,他们在计算机科学、数学和统计学方面几乎没有或没有背景,到物理和化学专业的科学专业的学生,例如,他们有良好的数学背景,但计算机科学背景有限,到工程专业的学生,他们都有所需的背景。此外,数据科学学生在不同的教育环境中学习:一些人参加正式框架(学校和大学),而另一些人在非正式框架(如聚会、新兵训练营和mooc)学习。

为了获得对数据科学概念(如机器学习)的有意义的理解,广泛的计算和数学背景是必要的。说教转换是一种可以用来克服背景差距的机制,如果这种差距存在的话。一般来说,教学转位指的是专业知识对实际教学情况的适应(Chevallard, 1989)。由于期望所有的学习者都获得这种背景知识是不现实的,我们必须在教学上为不同的学习者群体转换这种高级内容,正如Hazzan、Dubinsky和Meerbaum-Salant(2010)在计算机科学背景下所阐述的那样。

挑战10。数据科学教师

由于数据科学是一个年轻的领域,今天的数据科学教师不一定拥有数据科学的学士学位,而是来自不同的学术和行业背景。因此,数据科学教学法的传统尚未形成,其主要教学原则尚未形成。因此,数据科学教师准备计划尚未发展和建立。

总结

本博客描述了数据科学教育的10个挑战。显然,还有更多的挑战和分类存在。我们的研究试图通过探索针对不同人群的不同教学框架来识别这些挑战。我们希望这个博客能鼓励关于数据科学教育的讨论。

参考文献

F. Berman, stoden, V., Szalay, A. S., Rutenbar, R., Hailpern, B., Christensen, H.…Raghavan, P.(2018)。挖掘数据科学的潜力。ACM通信61(4), 67 - 72。https://doi.org/10.1145/3188721

Chevallard, y(1989)。论说教转位理论:一些介绍性注释。数学教育研究与发展选择领域国际研讨会

兰德,m(2017)。深,深的麻烦。2019年8月31日,从https://sinews.siam.org/Details-Page/deep-deep-trouble检索

Grosz, b.j., Grant, d.g., Vredenburgh, K., Behrends, J., Hu, L., Simmons, A.和Waldo, J.(2019)。嵌入式伦理。ACM通信62(8), 54 - 61。https://doi.org/10.1145/3330794

哈赞,O.,杜宾斯基,Y.,和Meerbaum-Salant, O.(2010)。计算机科学教育中的教学转换。ACM进展1(4) 33-37。https://doi.org/10.1145/1869746.1869759

卡尼曼,D.和特维斯基,A.(1973)。论预测心理学。心理评估80(4), 237 - 251。https://doi.org/10.1037/h0034747

需要,b(2016)。数据科学的实用和可持续的学习和教学模式,第47届ACM计算机科学教育技术研讨会,SIGCSE 2016, 169 - 174。

萨尔茨,J.,斯科潘,M.,费斯勒,C.,戈雷利克,M.,叶,T.,赫克曼,R.……比尔德,N.(2019)。在机器学习课程中整合伦理学。ACM计算机教育汇刊19(4) 1-26。https://doi.org/10.1145/3341164

斯基纳,S. S.(2017)。数据科学设计手册.https://doi.org/10.1007/978-3-319-55444-0

Sweller, J., Van Merrienboer, J. J. G. Paas, F. G. W. C. Van Merriënboer, J. J. G. & Paas, F. G. W. C.认知架构与教学设计:20年后,31教育心理学评论§(2019)。教育心理学复习。https://doi.org/10.1007/s10648-019-09465-5

Tang R.和sai -lim, W.(2018)。美国的数据科学项目。年代。高等教育:课程描述、课程结构和课程重点的探索性内容分析,32(2016),269-290。https://doi.org/10.3233/EFI-160977

Orit Hazzan是Technion科技教育学院的教授。她的研究重点是计算机科学、软件工程和数据科学教育。更多详细信息,请参见https://orithazzan.net.technion.ac.il/。迈克·库柏是Technion科学与技术教育系的博士生,导师是Orit Hazzan;他的研究重点是数据科学教育。


没有发现记录

登录为完全访问
»忘记密码? »创建ACM Web帐号
Baidu
map