acm-header
登录

ACM通信

BLOG@CACM

数据科学中的有效性和可靠性:跨学科的视角


在研究的背景下,术语有效性而且可靠性指的是数据收集工具、数据分析和结果的准确性和真实性的水平(Brink, 1993)。有效性的主要问题是研究工具是否确实测量了他们打算测量的东西,以及数据分析结果和发现是否代表了数据收集的真实世界。可靠性的主要问题是研究工具测量,数据分析结果,以及研究结果是否持久。

有效性、可靠性和数据科学

数据科学的跨学科性是数据科学的特征之一,我们研究了数据科学在数据科学教育中的实施。具体地说,我们从教育的角度考察数据科学(即统计学、计算机科学和应用领域)组成部分的本质,以及它们之间的相互关系。作为这项研究的一部分,我们认识到数据科学的每个组成部分都解释术语有效性而且可靠性不同的,如表1所示,并在下面解释。

表1:不同学科和研究范式的效度和信度

纪律

有效性

可靠性

统计数据

偏见

方差

计算机科学(机器学习)

训练误差

测试错误

定性研究

内部效度

外部效度

统计:在统计建模中,术语偏见而且方差测量估计值的准确性。偏差指的是估计器的期望值与估计参数的真实值之间的距离,因此它可以被视为类似于有效性。方差衡量估计值在其期望值周围的分布,因此方差可以被视为类似于可靠性。

计算机科学机器学习主要是在计算机科学的背景下发展起来的训练误差而且测试错误指通过机器学习算法构建的模型的预期预测误差。训练误差是机器学习算法在训练过的样本上的预测误差,它反映了模型对训练数据表示的准确性。因此,训练误差可以被视为学习模型的有效性,因为它是在标记数据(即已知数据)上训练的。测试误差指的是算法对未经过训练的数据样本预测的准确性。因此,测试误差表明了研究的可靠性。

应用领域:数据科学与各种应用领域和研究范式相关,包括定性研究,在此背景下,我们检查有效性和可靠性的解释。在这样的研究中,有效性是基于数据收集工具的多样性,以及研究人群和研究领域的数量和多样性。研究可靠性是基于研究期间进行的研究周期的数量,以检查被测量的持久性,并在需要时进行微调。在某些情况下,从定性数据分析中得出的结论是在对结果进行定量检查之后得出的。虽然有时会用不同的术语来解释定性研究的科学价值(如可信性、可信赖性、真理、价值、适用性、一致性和可确认性(Brink, 1993)),但我们使用更常见的术语内部效度而且外部效度(Denzin, 2017)来确定研究质量(包括定量和定性)。具体来说,在定性研究的背景下,内部效度是指研究结果代表现实的程度,因此这个衡量标准与效度类似。外部效度指的是现实的表征在群体中适用的程度,因此它与可靠性类似。

数据科学教育视角下的有效性和可靠性

这篇博客文章进一步强调了数据科学的跨学科性,以及在其作为一个跨学科领域的创造中表达的方法的多样性。我们认为,在任何数据科学教育框架中,不仅应该尽可能强调数据科学的跨学科性,而且这种方法可以提高对数据科学跨学科性的认识,有可能在学习者进行与数据科学发展和使用相关的不同活动时,提高他们对伦理考虑的关注。在数据科学教育的更先进的教学框架中,本博客中提出的关于有效性和可靠性的跨学科观点可以进一步讨论,以提高学习者对数据科学跨学科方面广泛影响的意识。

参考文献

布林克,h.i.(1993)。质性研究的效度与信度。Curationis,16(2) 35-38。

李志刚(2017)。研究行为:社会学方法的理论介绍.劳特利奇。

迈克·库柏是Technion科技教育部门的博士生;他的研究重点是数据科学教育。Orit Hazzan是Technion科技教育系的一名教授;她的研究重点是计算机科学、软件工程和数据科学教育。


没有发现记录

登录为完全访问
»忘记密码? *创建ACM Web帐户
Baidu
map