大数据风靡一时;使用大型数据集有望让我们对过去难以或不可能回答的问题有新的见解。在医学和社会科学等领域尤其如此,在这些领域,可以收集和挖掘大量数据,以发现变量之间的深刻关系。然而,这些领域的数据涉及到人类,因此引发了物理学或天文学等领域没有面临的隐私问题。
当研究人员试图与他人分享他们的数据时,这种隐私问题变得更加明显。数据共享是大数据科学的一个核心特征,它允许其他人验证已经完成的研究,并进行原始研究人员可能没有尝试过的其他研究方向。但是,分享人体实验对象的数据会引发一系列旨在保护这些实验对象隐私的监管制度。例如,共享医疗数据需要遵守HIPAA(健康保险携带与责任法案);共享教育数据触发了《家庭教育隐私权法案》的要求。这些法律要求,为了共享数据,数据必须去标识或匿名化(注意,对于本文,这些术语是可以互换的)。虽然FERPA和HIPAA对去识别的定义略有不同,但其核心思想是,如果一个数据集删除了某些值,那么数据集中的个人就无法被识别,他们的隐私将被保留。
没有发现记录