acm-header.
登入

ACM的通信

研究亮点

技术视角:构建安全网进行数据重用


实证科学中的大多数证据是自然界的统计学,科学家依赖于各种统计检验,以区分杂散的有效科学发现。遗憾的是,越来越彰显,基于统计证据的许多重要研究发现不是可重复的,提出了这些统计测试之间是否存在差距的问题,以及它们的使用方式。

虽然有许多原因,研究发现可能是不可重复的,但这项工作只关注一个交互性。现有统计方法假设用于分析数据的程序在收集数据之前修复了数据。例如,对固定变量组执行回归分析。但是,在实践中,通常基于与同一数据集的先前交互来选择用于分析数据集的方法。例如,使用相同的数据集首先选择变量,然后执行回归分析。众所周知,通过这种交互式方式分析固定数据集即使在每个过程中均有统计学声音时,也会导致虚假的结论。

我们应该如何研究交互式数据分析?最自然的方法是将交互过程明确地模拟作为单个过程。例如,在统计上的声音方面存在大量文献来选择变量,然后在这些变量上重返。但是,我们如何模拟与数据集的整个过程从开始完成时,当有许多步骤和早期步骤影响后续步骤的方式很复杂并且可能会被定义?

这项工作采用不同的方法,并拥有交互性。他们认为设计的可行性统计有效性安全网围绕固定数据集来围绕固定数据集,即使以交互式方式分析数据集,也可以在不影响统计有效性的情况下交互地分析。更具体地说,德拉玛丽斯人类是一个未知的人口和想要研究这一人口的数据分析师,但只有这个人口的随机样本。分析师被允许向人口询问非常一般的问题,每个问题都可能取决于以前问题的答案。答案通过安全网过滤,这应确保答案对于人口仍然准确,无论分析师如何选择查询。

以下纸张的作者展示了一种建造这种安全网的方法。他们这样做,使用大量加强民间传说结果,差异私有算法自动确保统计有效性,然后部署用于交互式数据分析的差分私有算法的丰富工具包,以构建此类过程。

当然,本文本身是了解结果的最佳方式。但对于那些对这一主题感兴趣的人来说,我将为自己的不完整,非常有偏见,可能已经已经过时的互动数据分析正统的概要。

更清晰的界限。交互式数据分析最好的统计保障是什么?在随后与Bassily等工作中的工作。一种我们对估计自适应选择的统计数据的错误提供了改进的界限,但我们仍然不知道这些界限是否是最佳的。我们当前不能关闭这种差距的一个原因是我们不了解确保交互式数据分析中统计有效性的必要条件。作者表现出比差异隐私的状况较弱有界最大信息已经足够了,并且已经考虑了其他几个概念,一种B.C但我们仍然没有必要的条件。

计算和统计瓶颈。在与Moritz Hardt的同时工作中,D.我们从另一个方向接近这个问题,并且表明交互式数据分析本质上比非交互式数据分析更困难。非常粗略地,我们显示数据集的维度是否大,或者如果程序在相互作用和数据集的最坏情况下需要计算效率,则可以确保大量互动的统计有效性是不可行的。

放松这个问题。在我看来,最有希望的方向是找到允许更有用的程序的模型的有意义的放松,并规避我们刚刚讨论的瓶颈。作者可重复使用的遏制是一种这样的放松。另一个例子,Blum和HardtE.为数据科学竞争中的特定应用提供了一种有效的算法,呈现了更具量身定制的方法的益处。我相信通过在普遍性和特异性之间找到合适的平衡,我们有更多的机会设计有用的工具。

正如您所见,交互式数据分析的基础已准备好开发并带来速度与非交互式数据分析的基础。我期待着在这个令人兴奋的话题上阅读更多工作。

回到顶部

作者

Jonathan Ullman.是东北大学计算机与信息科学学院助理教授,波士顿,马。

回到顶部

脚注

一种。Bassily等。自适应数据分析的算法稳定性。在STOC'16的诉讼程序。

湾D. Russo,J.Zou。利用信息理论控制自适应数据分析中的偏置。在Aistats'16的诉讼程序。

C。R. Rogers,A. Roth,A. Smith,O. Thakkar。最大形成,差异隐私和选择后假设检测。在Focs'16的诉讼程序。

天。M. Hardt,J. Ullman。防止在交互式数据分析中进行错误发现是艰难的。在Focs'14的诉讼程序。

e。A. Blum,M. Hardt。梯子:机器学习比赛的可靠排行榜。在ICML'15的诉讼程序。

查看随附的论文,访问doi.acm.org/10.1145/3051088


作者持有的版权。

数字图书馆由Computing Machinery协会发布。版权所有©2017 ACM,Inc。

Baidu
map