acm-headergydF4y2Ba
登录gydF4y2Ba

ACM通信gydF4y2Ba

研究突出了gydF4y2Ba

鲁棒性满足算法gydF4y2Ba


流程图图像和声波,说明gydF4y2Ba

在机器学习和统计的每个角落,都需要估计器,不仅在理想模型中工作,甚至在假设被违反时也可以工作。不幸的是,在高维空间中,可证明的鲁棒性和可有效计算性常常是相互矛盾的。gydF4y2Ba

我们给出了第一个估计高维高斯函数参数的有效算法,该算法能够容忍与维数无关的常数比例的破坏。在我们的工作之前,所有已知的估计器要么需要在维度上的时间指数来计算,要么只能容忍破坏的反多项式分数。我们的算法不仅弥补了鲁棒性和算法之间的差距,而且在各种设置中都非常实用。gydF4y2Ba

回到顶部gydF4y2Ba

1.简介gydF4y2Ba

机器学习充满了在理想环境下工作良好的估计器的例子,但当它们的假设被违反时就失败了。考虑下面的说明性示例:我们有一些示例gydF4y2BaXgydF4y2Ba1gydF4y2Ba,gydF4y2BaXgydF4y2Ba2gydF4y2Ba,…,gydF4y2BaXgydF4y2BaNgydF4y2Ba来自一维高斯函数gydF4y2Ba

ueq01.gifgydF4y2Ba

我们的目标是估计它的平均值gydF4y2BaμgydF4y2Ba及其方差σgydF4y2Ba2gydF4y2Ba.众所周知,经验均值gydF4y2Bacacm6405_bt.gifgydF4y2Ba经验方差gydF4y2Bacacm6405_bu.gifgydF4y2Ba是有效的,定义为gydF4y2Ba

ueq02.gifgydF4y2Ba

事实上,这些都是统计学中一个更普遍的范式的例子叫做gydF4y2Ba极大似然估计gydF4y2Ba:当我们知道分布来自某个参数族时,我们选择最可能产生观测数据的参数。1922年,罗纳德·费雪gydF4y2Ba12gydF4y2Ba阐述了极大似然原理。它有许多奇妙的性质(在各种技术条件下),比如当样本数量趋于无穷时,它会收敛到真参数,这个性质叫做gydF4y2Ba一致性。gydF4y2Ba此外,它在所有无偏估计量中具有渐近最小的可能方差,这一性质称为gydF4y2Ba渐近的一致性。gydF4y2Ba

1960年,约翰·杜克gydF4y2Ba24gydF4y2Ba通过提出一个简单的问题来挑战参数估计的传统智慧:是否有可证明的鲁棒方法来估计一维高斯的参数?他表明,当数据不是完全高斯分布,而是来自一个接近高斯分布的分布时,各种不渐近一致(因而失宠)的估计量的表现优于最大似然估计量。他的论文开创了gydF4y2Ba健壮的统计数据gydF4y2Ba15gydF4y2Ba,gydF4y2Ba13gydF4y2Ba它试图设计在真实模型附近表现良好的估计器。在一个维度上,稳健统计规定使用经验中值比使用经验平均值更好。同样,使用经验中位数绝对偏差(或基于分位数的任何数量的其他估计量)比使用经验标准差更好。参见3.1节。gydF4y2Ba

尽管在几乎每一个机器学习的应用中都迫切需要可证明的鲁棒估计器,但直接应用鲁棒统计的思想存在一个主要障碍。困难在于几乎所有可证明的鲁棒估计量都很难在高维中计算。在这项工作中,我们对以下一系列问题感兴趣:gydF4y2Ba

问题1.1。gydF4y2Ba设D是上的分布族gydF4y2BaRgydF4y2BadgydF4y2Ba.gydF4y2Ba假设我们有如下过程生成的样本:首先,从d中的某个未知分布P中抽取m个样本,然后,允许对手任意破坏样本的一个ε-分数。我们能有效地找到一个分布P' in D是f吗gydF4y2Ba(gydF4y2BaεgydF4y2Ba,gydF4y2BadgydF4y2Ba)-gydF4y2Ba在总变化距离上,接近P?gydF4y2Ba

我们最重要的例子是直接概括John Tukey的挑战gydF4y2Ba24gydF4y2Ba到更高维度:是否存在一个可证明的健壮性gydF4y2Ba算法gydF4y2Ba用于估计高维高斯函数的参数?不需要考虑算法,健壮统计已经提供了诸如gydF4y2Ba图基值gydF4y2Ba25gydF4y2Ba和gydF4y2Ba围合椭球的最小体积gydF4y2Ba23gydF4y2Ba分别用于估计高维均值和协方差。然而,最著名的计算这些估计的算法运行的时间在维度上是指数级的。事实上,我们还没有发现任何维数大于6的中等规模的数据集成功计算了这些估计!gydF4y2Ba

相比之下,还有其他的技术可以尝试。例如,我们可以不计算Tukey中位数,而是计算坐标上的中位数。这显然可以在多项式时间内完成,但遇到了另一种不同的困难:事实证明,通过沿非轴对齐的方向添加破坏,对手可能会严重破坏估计器。在数量上,即使一个对手只被允许腐败一个gydF4y2BaεgydF4y2Ba-分数的样本,它们可以迫使估计器找到一个高斯函数gydF4y2Bacacm6405_cs.gifgydF4y2Ba在gydF4y2BaℓgydF4y2Ba2gydF4y2Ba-distance,表示总变化距离接近于1。gydF4y2Ba

我们工作背后的主要元问题是:是否有可能设计出既可证明在高维上具有鲁棒性(即,它们在鲁棒性保证中不丢失与维度相关的因素)又可有效计算的估计器?我们将给出第一个可证明的鲁棒性和计算效率的方法来学习高维高斯的参数,以及各种其他相关的模型。在并行和独立的工作,赖等。gydF4y2Ba20.gydF4y2Ba给出了替代算法,尽管保证较弱。我们将在第1.3节讨论他们的工作。gydF4y2Ba

我们在这里研究的问题类型也植根于计算学习理论。这与Kearns等人的不可知论学习模型有关。gydF4y2Ba17gydF4y2Ba这里的目标是在给定类的所有函数中学习一个标记函数,它与某个底层目标函数的一致性接近于最佳可能。相比之下,我们对无监督学习问题感兴趣,但它也是不可知论的,因为我们希望从分布族中找到近似最接近的拟合。在机器学习中,这类问题也被称为模型错误规范下的估计。通常的方法是使用最大似然估计,但不幸的是,通常很难计算。即使忽略计算方面的考虑,最大似然估计量也只能保证收敛于分布gydF4y2BaP 'gydF4y2Ba在gydF4y2BaDgydF4y2Ba(在Kullback-Leibler散度中)最接近产生观测结果的分布。这是有问题的,因为这样的分布不一定接近gydF4y2BaPgydF4y2Ba在所有。gydF4y2Ba

更广泛地说,近年来,这一领域的各种问题都取得了长足的进展,如具有可证明保证的混合模型学习算法、系统发生树、隐马尔可夫模型、主题模型和独立成分分析。这些算法基于矩量法,关键是依赖于这样一个假设,即观测结果实际上是由家族中的一个模型生成的。然而,这个简化的假设并不一定是完全正确的,当它只在近似意义上成立时,探索会发生什么是一个重要的方向。我们的工作可以被认为是在这些应用中放松分布假设的第一步,随后在算法稳健统计方面的工作提供了新的方法,用于在未损坏分布的较弱假设下稳健估计较高时刻。gydF4y2Ba5gydF4y2Ba,gydF4y2Ba10gydF4y2Ba,gydF4y2Ba14gydF4y2Ba,gydF4y2Ba19gydF4y2Ba

*gydF4y2Ba1.1.我们的技术gydF4y2Ba

我们所有的算法都是基于一个共同的配方。第一步是回答下面这个更简单的问题:即使我们有一个候选假设gydF4y2BaP 'gydF4y2Ba,我们怎么知道它是不是gydF4y2BaεgydF4y2Ba-在总变化距离接近gydF4y2BaPgydF4y2Ba?证明亲密度的通常方法是表现出两者之间的耦合gydF4y2BaPgydF4y2Ba而且gydF4y2BaP 'gydF4y2Ba从两个分布中抽取边际样本,其性质是样本相同概率为1 -gydF4y2BaεgydF4y2Ba.然而,我们无法控制生成样本的过程gydF4y2BaPgydF4y2Ba,以产生这样的耦合。即便如此,对手决定破坏样本的方式也会引入复杂的统计依赖性。gydF4y2Ba

我们通过使用一个适当的参数距离的概念来规避这个问题,我们使用它作为类中两个分布之间的总变化距离的代理gydF4y2BaD。gydF4y2Ba参见2.2节。各种参数距离的概念构成了以下意义上分布学习的各种高效算法的基础。如果gydF4y2BaθgydF4y2Ba而且gydF4y2BaθgydF4y2Ba’是定义分布的两组参数gydF4y2BaPgydF4y2BaθgydF4y2Ba而且gydF4y2BaPgydF4y2BaθgydF4y2Ba'gydF4y2Ba在一节课上gydF4y2BaDgydF4y2Ba,学习算法通常依赖于在总变异距离之间建立以下类型的关系gydF4y2BadgydF4y2Ba电视gydF4y2Ba(gydF4y2BaPgydF4y2BaθgydF4y2Ba,gydF4y2BaPgydF4y2BaθgydF4y2Ba'gydF4y2Ba)和参数distancegydF4y2BadgydF4y2BapgydF4y2Ba(gydF4y2BaθgydF4y2Ba,gydF4y2BaθgydF4y2Ba”):gydF4y2Ba

eq01.gifgydF4y2Ba

不幸的是,在我们的不可知论设置中,我们不能让(1)依赖于维度gydF4y2BadgydF4y2Ba在所有。任何这样的依赖关系都会出现在我们算法的误差保证中。相反,我们算法的起点是一个满足的参数距离的概念gydF4y2Ba

eq02.gifgydF4y2Ba

这允许我们重新制定设计鲁棒估计器的目标,将分布无关的误差保证作为鲁棒估计的目标gydF4y2BaθgydF4y2Ba根据gydF4y2BadgydF4y2BapgydF4y2Ba.在一些设置中,参数距离的选择相当简单。通常情况下,某些变体的gydF4y2BaℓgydF4y2Ba2gydF4y2Ba参数之间的距离有效。gydF4y2Ba

给定我们的参数距离满足(2)的概念,我们的主要内容是一个有效的方法来稳健估计参数。我们提供了两种基于相似原理的算法方法。我们的第一个方法是快速和实用的,只需要近似的特征值计算。我们的第二种方法依赖于凸规划,它的优点是可以混合不同类型的约束(如由平方和层次结构生成的约束)来处理更复杂的设置。值得注意的是,这两种方法都可以为我们所有的具体学习应用程序提供几乎相同的错误保证。接下来,我们专门研究稳健学习均值的问题gydF4y2BaμgydF4y2Ba它的协方差是恒等函数,我们将用它来说明这两种方法是如何操作的。我们强调,在更一般的设置中学习参数需要许多额外的想法。gydF4y2Ba

我们的第一个算法方法是一个迭代贪婪方法,在每次迭代中,过滤掉一些损坏的样本。特别是,给定一组样本gydF4y2Ba年代gydF4y2Ba它包含一个很大的集合gydF4y2Ba年代gydF4y2Ba对于未损坏的样本,我们算法的迭代要么返回样本的平均值gydF4y2Ba年代gydF4y2Ba或者找到一个gydF4y2Ba过滤器gydF4y2Ba这让我们可以高效地计算一个集合gydF4y2BaS”gydF4y2Ba⊂gydF4y2Ba年代gydF4y2Ba这更接近于gydF4y2Ba年代。gydF4y2Ba注意样本均值gydF4y2Bacacm6405_bv.gifgydF4y2Ba(即使在我们删除了明显的异常值点之后)也可以gydF4y2Bacacm6405_bw.gifgydF4y2Ba-远不是真正的意思gydF4y2BaℓgydF4y2Ba2gydF4y2Ba——远程。滤波方法表明,样本均值已经是一个很好的估计gydF4y2BaμgydF4y2Ba或者有一个基本的光谱测试,它会拒绝一些被破坏的点,而几乎不拒绝未被破坏的点。关键的观察结果是,如果少量的损坏点导致了样本均值的巨大变化,那么一定是许多损坏点在某些特定方向上与均值相差甚远。gydF4y2Ba

我们的第二种算法方法依赖于凸规划。这里,我们不拒绝损坏的样本,而是适当地计算gydF4y2Ba重量wgydF4y2Ba我gydF4y2Ba对于样品gydF4y2BaXgydF4y2Ba我gydF4y2Ba,使加权经验平均值gydF4y2Bacacm6405_bx.gifgydF4y2Ba接近于gydF4y2BaμgydF4y2Ba.我们要求权值在凸集中gydF4y2BaCgydF4y2BaτgydF4y2Ba,其定义约束为:gydF4y2Ba

  1. cacm6405_by.gifgydF4y2Ba对所有gydF4y2Ba我gydF4y2Ba而且gydF4y2Bacacm6405_bz.gifgydF4y2Ba,gydF4y2Ba
  2. cacm6405_ca.gifgydF4y2Ba.gydF4y2Ba

我们证明了这点gydF4y2Ba任何gydF4y2Ba中的一组权重gydF4y2BaCgydF4y2BaτgydF4y2Ba产生一个很好的估计gydF4y2Bacacm6405_cb.gifgydF4y2Ba.问题是布景gydF4y2BaCgydF4y2BaτgydF4y2Ba的定义基于gydF4y2BaμgydF4y2Ba,gydF4y2Ba这是未知的。gydF4y2Ba然而,事实证明,我们可以使用作为滤波方法基础的相同类型的谱参数来设计一个近似的分离预言gydF4y2BaCgydF4y2BaτgydF4y2Ba.结合凸优化的标准结果,得到了我们的第二种鲁棒估计算法gydF4y2BaμgydF4y2Ba.gydF4y2Ba

第三个也是最后一个成分是一些新的浓度界限。在上述两种方法中,我们最多希望能够删除所有的损坏点,只留下未损坏的点,然后对它们使用标准估计量(例如,经验平均值)。然而,对手可能已经删除了gydF4y2BaεgydF4y2Ba-样本的一部分,以一种偏向剩余未损坏样本的经验平均值的方式。我们需要的是足够大的浓度界限gydF4y2BaNgydF4y2Ba,供参考gydF4y2BaXgydF4y2Ba1gydF4y2Ba,gydF4y2BaXgydF4y2Ba2gydF4y2Ba、……gydF4y2BaXgydF4y2BaNgydF4y2Ba从带均值的高斯函数gydF4y2BaμgydF4y2Ba恒等协方差,每(1 -gydF4y2BaεgydF4y2Ba)gydF4y2BaNgydF4y2Ba样本集产生一个很好的估计gydF4y2BaμgydF4y2Ba.在某些情况下,我们可以通过利用已知的浓度不等式和取并界来得到这样的浓度界。然而,在其他情况下(例如高斯随机变量的二次多项式的浓度界限),现有的浓度界限不够强,我们需要其他的论证来证明我们需要什么。gydF4y2Ba

最后,我们简要地讨论了如何应用我们的技术来鲁棒地学习协方差。假设均值为零,考虑下面的凸集gydF4y2BaCgydF4y2BaτgydF4y2Ba,其中Σ为未知协方差矩阵:gydF4y2Ba

  1. cacm6405_cc.gifgydF4y2Ba对所有gydF4y2Ba我gydF4y2Ba而且gydF4y2Bacacm6405_cd.gifgydF4y2Ba,gydF4y2Ba
  2. cacm6405_ce.gifgydF4y2Ba.gydF4y2Ba

同样,定义凸集的约束是基于分布的参数的(这一次,它们使用了Σ的知识)。通过分析高斯的四阶矩张量的谱性质,设计了这个未知凸集的近似分离算子。结果表明,当协方差为恒等时稳健学习均值的算法和当均值为零时稳健学习协方差的算法可以结合起来解决一般问题。gydF4y2Ba

*gydF4y2Ba1.2.我们的研究结果gydF4y2Ba

我们给出了第一个具有维无关误差保证的不可知论学习几个重要分布类的有效算法。我们的主要成果是一个具有几乎最优误差保证的高维高斯函数鲁棒学习算法。在这篇论文中,我们写道gydF4y2Bacacm6405_cf.gifgydF4y2Ba当提到我们的样本复杂度时,表示我们的算法在gydF4y2BaN≥C f(d, ε, δ)gydF4y2BapolyloggydF4y2Ba(f(d, ε, δgydF4y2Ba为足够大的普适常数gydF4y2BaC。gydF4y2Ba

定理1.2。gydF4y2Ba设μ, Σ是任意且未知的,设εgydF4y2Ba> 0gydF4y2Ba被给予。给出N(μ, Σ)中的N个样本的ε-损坏集,并给出多项式时间算法gydF4y2Bacacm6405_cg.gifgydF4y2Ba生产gydF4y2Bacacm6405_bt.gifgydF4y2Ba而且gydF4y2Bacacm6405_ch.gifgydF4y2Ba这就是概率gydF4y2Ba0.99,gydF4y2Ba我们有gydF4y2Ba

ueq03.gifgydF4y2Ba

在后来的工作中,gydF4y2Ba5gydF4y2Ba我们改进了样本复杂度gydF4y2Bacacm6405_cg.gifgydF4y2Ba

这是最优的到常数因素,即使没有腐败。此外,Diakonikolas等人也观察到了这种现象。gydF4y2Ba6gydF4y2Ba这些算法的误差保证可以改进到gydF4y2BaOgydF4y2Ba(gydF4y2BaεgydF4y2Ba日志(1 /gydF4y2BaεgydF4y2Ba)),这对于统计查询算法来说是最好的。gydF4y2Ba9gydF4y2Ba

除了对高维高斯的鲁棒学习,我们给出了第一个有效的鲁棒学习算法,该算法具有与维度无关的误差保证,可用于各种其他统计任务,例如二元乘积分布的鲁棒估计,任意常数个球面高斯的混合物的鲁棒密度估计,以及两个二元乘积分布的混合物(在某种自然平衡条件下)。我们强调,获得这些结果需要额外的概念和技术成分。我们将这些结果的描述推迟到我们论文的完整版本。gydF4y2Ba

*gydF4y2Ba1.3.相关工作gydF4y2Ba

在并行和独立的工作,赖等。gydF4y2Ba20.gydF4y2Ba还研究了高维鲁棒估计。他们的结果更普遍地适用于有界矩的分布,但对于鲁棒学习高斯函数的基本问题,我们的保证更强(并且最优达到多对数因子)。gydF4y2Ba

在我们和他们的工作之后,该领域出现了一系列的活动,比如当腐败的比例大于一半时,鲁棒列表学习的算法,gydF4y2Ba3.gydF4y2Ba样本复杂度在维数上为次线性的稀疏均值估计算法,gydF4y2Ba2gydF4y2Ba统计查询算法的下界,gydF4y2Ba9gydF4y2Ba并扩展到其他具有较弱力矩条件的生成模型gydF4y2Ba14gydF4y2Ba,gydF4y2Ba19gydF4y2Ba以及各种监督学习问题。gydF4y2Ba22gydF4y2Ba,gydF4y2Ba7gydF4y2Ba在Diakonikolas和Kane中可以找到该地区最近发展的概况。gydF4y2Ba8gydF4y2Ba我们还注意到鲁棒学习的光谱技术,它是我们算法的亲戚,出现在早期的工作中。gydF4y2Ba18gydF4y2Ba,gydF4y2Ba1gydF4y2Ba这些工作采用了“硬”过滤步骤(针对监督学习问题),它只去除异常值,结果导致误差随维度的对数增长。gydF4y2Ba

回到顶部gydF4y2Ba

2.预赛gydF4y2Ba

*gydF4y2Ba2.1.问题的设置gydF4y2Ba

在形式上,我们将在以下腐败模型中工作:gydF4y2Ba对于一个给定的gydF4y2BaεgydF4y2Ba> 0gydF4y2Ba未知分布P,我们说S是angydF4y2BaεgydF4y2Ba-gydF4y2Ba来自P的N如果S的损坏样本集gydF4y2Ba=gydF4y2BaGgydF4y2Ba∪gydF4y2BaEgydF4y2Ba\gydF4y2Ba年代gydF4y2BargydF4y2Ba,gydF4y2Ba其中G是来自P S的N个独立样本的集合gydF4y2BargydF4y2Ba⊂gydF4y2BaG, E和SgydF4y2BargydF4y2Ba满足gydF4y2Ba|gydF4y2BaEgydF4y2Ba| = |gydF4y2Ba年代gydF4y2BargydF4y2Ba|≤gydF4y2BaεgydF4y2BaN。gydF4y2Ba

换句话说,一组样本是gydF4y2BaεgydF4y2Ba-损坏的,如果gydF4y2BaεgydF4y2Ba-fraction的样本被任意改变,我们可以认为这是一个两个步骤的过程:首先,对手删除样本gydF4y2Ba年代gydF4y2BargydF4y2Ba然后加上它自己任意选择的数据点gydF4y2BaE。gydF4y2Ba请注意gydF4y2BaεgydF4y2Ba-腐败模型是一个强有力的腐败模型,它赋予了它比其他经典的腐败概念(如Huber的污染模型)更多的力量。我们可以想象对手如何改变概率密度函数gydF4y2BaPgydF4y2Ba如下:gydF4y2Ba

ins01.gifgydF4y2Ba

这里,蓝色的曲线是原始的密度函数,绿色的曲线是新的密度函数,它只是近似地接近gydF4y2BaP。gydF4y2Ba蓝色曲线位于绿色曲线之上的区域是攻击者删除了样本的地方,绿色曲线位于蓝色曲线之上的区域是攻击者注入了样本的地方。事实上,真正的过程甚至更加复杂,因为如果对手首先检查样本,然后决定破坏什么,即使它没有破坏的样本也不再一定是独立的。gydF4y2Ba

事实证明,这个模型与分布之间距离的自然度量,即总变化距离有非常密切的联系:gydF4y2Ba

定义2.2。gydF4y2Ba给定两个分布P Q除以gydF4y2BaRgydF4y2BadgydF4y2Ba分别用概率密度函数p qgydF4y2Ba总变差gydF4y2BaP和Q之间的距离由gydF4y2Ba

ueq04.gifgydF4y2Ba

产生这种联系的原因如下:gydF4y2Ba

2.3。gydF4y2Ba设P Q是d的两个分布gydF4y2Ba电视gydF4y2Ba(gydF4y2BaPgydF4y2Ba,gydF4y2Ba问gydF4y2Ba) =gydF4y2BaεgydF4y2Ba.gydF4y2Ba设S是q的N个id样本,则概率至少为gydF4y2Ba1−exp(−Ω(gydF4y2BaεgydF4y2BangydF4y2Ba)),gydF4y2BaS可以看作是一组gydF4y2Ba(1 +gydF4y2BaogydF4y2Ba(1))gydF4y2BaεgydF4y2Ba-gydF4y2BaP。gydF4y2Ba

这意味着,从损坏的数据中学习至少和学习一个分布一样困难,直到损坏点的分数中的次常数因子gydF4y2BaPgydF4y2Ba从样本中,如果我们得到的是其他分布的样本,也就是gydF4y2BaεgydF4y2Ba-在总变异距离上接近于它。这个事实立即暗示了,如果我们被给定gydF4y2BaεgydF4y2Ba-损坏的样本gydF4y2BaPgydF4y2Ba在美国,我们最多只能指望恢复一些gydF4y2Bacacm6405_ci.gifgydF4y2Ba这gydF4y2Bacacm6405_cj.gifgydF4y2Ba.正如我们将看到的,通常可以匹配这个下界(直到对数因子)。gydF4y2Ba

*gydF4y2Ba2.2.连接到参数距离gydF4y2Ba

在本文中,我们的重点是gydF4y2Ba鲁棒高斯估计gydF4y2Ba,当gydF4y2BaPgydF4y2Ba=gydF4y2BaNgydF4y2Ba(gydF4y2BaμgydF4y2Ba, Σ)为高斯分布。也就是说,给定一组gydF4y2BaNgydF4y2BaεgydF4y2Ba-来自未知高斯分布的损坏样本gydF4y2BaPgydF4y2Ba,目标是输出一个高斯分布gydF4y2Bacacm6405_ci.gifgydF4y2Ba这样gydF4y2Bacacm6405_ck.gifgydF4y2Ba很小。事实证明,在自然仿射不变度量中,学习总变化距离中的高斯分布与学习分布的参数密切相关。这可以通过以下两个引理得到。在本文中,我们将阐述这一点gydF4y2Bacacm6405_cl.gifgydF4y2Ba如果gydF4y2BafgydF4y2Ba(gydF4y2BaxgydF4y2Ba)≤gydF4y2BaCgydF4y2BaggydF4y2Ba(gydF4y2BaxgydF4y2Ba)gydF4y2BaXgydF4y2Ba和某个普适常数gydF4y2BaCgydF4y2Ba.我们让||gydF4y2Ba一个gydF4y2Ba||gydF4y2BaFgydF4y2Ba表示矩阵的Frobenius范数gydF4y2Ba一个。gydF4y2Ba

引理2.4。gydF4y2Ba对于任何gydF4y2BaμgydF4y2Ba,gydF4y2BaμgydF4y2Ba'∈rgydF4y2BadgydF4y2Ba,gydF4y2Ba我们有gydF4y2Ba

ueq05.gifgydF4y2Ba

引理2.5。gydF4y2Ba对于任何全秩半正定矩阵gydF4y2BaΣΣ”,gydF4y2Ba我们有gydF4y2Ba

ueq06.gifgydF4y2Ba

在∥gydF4y2Ba一个gydF4y2Ba∥gydF4y2BaΣgydF4y2Ba∥ΣgydF4y2Ba−1/2gydF4y2Ba一个gydF4y2BaΣgydF4y2Ba−1/2gydF4y2Ba∥gydF4y2BaFgydF4y2Ba.gydF4y2Ba

第一个引理指出,如果协方差都是恒等,那么两个高斯量之间的总变差距离本质上是ℓgydF4y2Ba2gydF4y2Ba-高斯平均数之间的距离,除非平均数相差很远。注意,总变化距离总是不超过1,所以当均值相距很远时,我们只能得到一个恒定的下界。gydF4y2Ba

第二个引理类似:它说,如果两个均值都为零,那么总变异距离由协方差之间的弗罗比尼乌斯范数距离捕获,但由其中一个协方差“预先条件”。这只是一个高维的类比,在一维中,如果我们想要得到高斯函数方差的有意义的近似值,我们需要学习它的乘法误差。gydF4y2Ba

回到顶部gydF4y2Ba

3.稳健估计gydF4y2Ba

*gydF4y2Ba3.1.单变量稳健估计gydF4y2Ba

为了便于阐述,我们从鲁棒单变量高斯估计开始。第一个观察结果是,经验平均值是gydF4y2Ba不gydF4y2Ba健壮:即使改变一个gydF4y2Ba单样本gydF4y2Ba可以将我们的估计值移动一个任意大的量。要看这个,让gydF4y2Bacacm6405_cm.gifgydF4y2Ba是数据集在损坏之前的经验均值,让gydF4y2Bacacm6405_bt.gifgydF4y2Ba为增加样本值后的经验均值gydF4y2BaXgydF4y2Ba1gydF4y2Ba增加了一定数量gydF4y2Bat。gydF4y2Ba尽管标准的浓度论证暗示了这一点gydF4y2Bacacm6405_cn.gifgydF4y2Ba是小的,我们有吗gydF4y2Bacacm6405_co.gifgydF4y2Ba,我们可以让它任意大gydF4y2Bat。gydF4y2Ba幸运的是,我们描述了一种基于顺序统计的简单方法,它将允许我们同时估计平均值和方差,即使当数据集的某个恒定部分已经损坏时也是如此。gydF4y2Ba

高斯均值最著名的鲁棒估计量是gydF4y2Ba值。gydF4y2Ba更准确地说,我们让gydF4y2Ba

ueq07.gifgydF4y2Ba

类似地,作为对标准偏差的估计,我们可以考虑缩放gydF4y2Ba中位数绝对偏差gydF4y2Ba(疯狂),让gydF4y2Ba

ueq08.gifgydF4y2Ba

在ΦgydF4y2Ba−1gydF4y2Ba为高斯累积分布函数的逆。为了使MAD成为标准偏差的一致估计量,需要进行缩放。中位数和MAD允许我们稳健地估计潜在的高斯:gydF4y2Ba

定理3.1。gydF4y2Ba给定一组gydF4y2Bacacm6405_cp.gifgydF4y2BaεgydF4y2Ba-gydF4y2Ba损坏的样本gydF4y2BaNgydF4y2Ba(gydF4y2BaμgydF4y2Ba,gydF4y2BaσgydF4y2Ba2gydF4y2Ba),gydF4y2Ba至少在概率上gydF4y2Ba1 -gydF4y2Baδ,我们有gydF4y2Ba

ueq09.gifgydF4y2Ba

对于一个普适常数C。gydF4y2Ba

这个估计器是所有可能的世界中最好的。它是可证明的强健的。它的计算效率很高。实际上,它也达到了信息理论上的最优样本复杂度。中值和MAD是基于的鲁棒估计的例子gydF4y2Ba订单统计。gydF4y2Ba还有其他可证明的稳健估计gydF4y2Bawinsorizing。gydF4y2Ba13gydF4y2Ba

*gydF4y2Ba3.2.失败的自然多元方法gydF4y2Ba

有许多自然的方法可以将我们在一维情况下学到的知识推广到高维情况。但正如我们将看到的,在可证明的鲁棒性和计算效率之间存在着矛盾。首先,考虑一种逐坐标的方法,我们沿着每个坐标方向稳健地估计平均值,并连接gydF4y2BadgydF4y2Ba单变量估计变成了对的估计gydF4y2BadgydF4y2Ba-维平均向量。虽然这实现了错误Θ(gydF4y2BaεgydF4y2Ba),将各方向子问题的估计结果结合在一起gydF4y2BaℓgydF4y2Ba2gydF4y2Ba错误的gydF4y2Bacacm6405_cq.gifgydF4y2Ba.在高维设置中,除了的极小值外,这给出了总的变化距离的空界gydF4y2BaεgydF4y2Ba.gydF4y2Ba

或者,可以尝试将基于中值的估计器扩展到多元设置。虽然相同的中位数定义不能适用于不止一个维度,但有许多方法可以推广它。其中一个概括就是gydF4y2Ba图基值gydF4y2Ba,gydF4y2Ba25gydF4y2Ba专门针对鲁棒估计问题提出。数据集的Tukey中位数是一个点(不一定在数据集中),它使通过该点的任何半空间的一侧的最小点数最大化。虽然这样达到了预期的效果gydF4y2BaOgydF4y2Ba(gydF4y2BaεgydF4y2Ba)精度,不幸的是,在最坏情况数据集上很难近似。gydF4y2Ba16gydF4y2Ba中值的另一个多元概念是gydF4y2Ba几何平均gydF4y2Ba的和最小的点gydF4y2BaℓgydF4y2Ba2gydF4y2Ba-到数据集中点的距离。虽然这可以在多项式时间内有效地计算,但不幸的是,它也可以被证明是招致的gydF4y2Bacacm6405_cq.gifgydF4y2Ba错误。gydF4y2Ba20.gydF4y2Ba

到目前为止提到的所有方法都有以下缺点之一:gydF4y2Ba

  1. 优化问题是np困难的,使得它在中等维度的设置中难以处理。gydF4y2Ba
  2. 误差中出现了一个很大的尺寸相关因素,导致在高维设置下精度保证非常弱。gydF4y2Ba

这些问题中至少有一个存在于所有已知的方法中,任何一个都将排除可实现的多元稳健估计。再举几个例子,基于比赛的假设选择方法给出了准确的结果,但计算效率不高。或者,可以考虑基于修剪的参数,它删除所有离数据集其余部分太远的点。这在计算上是有效的,但我们又会引起的误差gydF4y2Bacacm6405_cq.gifgydF4y2Ba.gydF4y2Ba

我们的主要成果的主要贡献是一种同时避免了这两个问题的方法,提供了一种计算效率高的算法,并且在精度上不丢失与尺寸有关的因素。gydF4y2Ba

*gydF4y2Ba3.3.鲁棒平均估计gydF4y2Ba

为了深入了解在多元设置中出错的原因,我们对基于修剪的方法进行了更深入的研究。目前,我们将注意力限制在具有恒等协方差的高斯函数上。众所周知,给定根据。生成的数据集gydF4y2BadgydF4y2Ba-维球面高斯分布时,所有数据点都会在一定距离上紧密集中gydF4y2Bacacm6405_cr.gifgydF4y2Ba从均值开始。因此,我们可以认为分布是集中在一个薄的球壳上,如图所示:gydF4y2Ba

ins02.gifgydF4y2Ba

一个聪明的对手可以把他所有的腐败也放在壳内,以这样一种方式,他们移动的经验平均值gydF4y2Bacacm6405_cs.gifgydF4y2Ba在gydF4y2BaℓgydF4y2Ba2gydF4y2Ba——远程。这证明了任何算法的内在限制,它只看gydF4y2Ba在本地gydF4y2Ba对于腐败的结果,任何有效的算法都必须删除基于gydF4y2Ba全球gydF4y2Ba数据集的属性。gydF4y2Ba

这体现在以下关键的几何引理中:gydF4y2Ba

引理3.2。gydF4y2Ba让εgydF4y2Ba∈(0,1 /2)。gydF4y2Ba设S是ε-损坏的点集合gydF4y2BaNgydF4y2Ba(gydF4y2BaμgydF4y2Ba,gydF4y2Ba我gydF4y2Ba)gydF4y2Ba至少是大小gydF4y2BaΩ(gydF4y2BadgydF4y2Ba/gydF4y2BaεgydF4y2Ba2gydF4y2Ba).gydF4y2Ba让gydF4y2Bacacm6405_ct.gifgydF4y2Ba表示S的经验均值和协方差,即gydF4y2Ba

ueq10.gifgydF4y2Ba

那么,至少是有概率的gydF4y2Ba0.99,gydF4y2Ba我们有:gydF4y2Ba

eq03.gifgydF4y2Ba

这个引理是Diakonikolas等人的引理4.15的稍微改写。gydF4y2Ba4gydF4y2Ba在较高的水平上,引理3.2指出,如果真实平均值和经验平均值(和潜在的损坏)相差很远,那么经验方差在某些方向上一定是显著不同的。的谱范数gydF4y2Bacacm6405_ch.gifgydF4y2Ba可以用来证明我们的估算吗gydF4y2Bacacm6405_bt.gifgydF4y2Ba是否接近真正的平均值gydF4y2Ba

ueq11.gifgydF4y2Ba

另一方面,当经验均值被破坏时,引理3.2为我们提供了一种算法上的进步。它分离了一个特定的方向,即的上特征向量gydF4y2Bacacm6405_ch.gifgydF4y2Ba- - - - - -gydF4y2Ba我gydF4y2Ba-其中损坏的点肯定有很大的贡献。我们描述的这两种算法都使用了从经验时刻以不同的方式收集的关于腐败的信息。gydF4y2Ba

过滤方法。gydF4y2Ba过滤方法通过使用上面的直觉从数据集中删除点来工作。它的步骤如下:gydF4y2Ba

  1. 计算上特征值λ和特征向量gydF4y2BavgydF4y2Ba的gydF4y2Bacacm6405_ch.gifgydF4y2Ba.gydF4y2Ba
  2. 如果λ足够小,终止和输出gydF4y2Bacacm6405_bt.gifgydF4y2Ba.gydF4y2Ba
  3. 否则,计算gydF4y2Bacacm6405_cu.gifgydF4y2Ba,为自适应选择的阈值gydF4y2BaTgydF4y2Ba,全部移除gydF4y2BaXgydF4y2Ba我gydF4y2Ba这gydF4y2BaτgydF4y2Ba我gydF4y2Ba>gydF4y2BaTgydF4y2Ba,并重复。gydF4y2Ba

如果仔细地做这件事,那么引理3.2保证我们总是丢弃许多坏的点与我们丢弃的好点的数量相比较。参见Diakonikolas等。gydF4y2Ba4gydF4y2Ba了解如何选择阈值的详细描述。为了使它更正式,对于任意两个集合gydF4y2Ba一个gydF4y2Ba,gydF4y2BaBgydF4y2Ba,定义Γ(gydF4y2Ba一个gydF4y2Ba,gydF4y2BaBgydF4y2Ba) |gydF4y2Ba一个gydF4y2BaΔgydF4y2BaBgydF4y2Ba|/|gydF4y2Ba一个gydF4y2Ba|,它度量相对于的大小的对称差的相对大小gydF4y2Ba一个。gydF4y2Ba那么,我们对滤波器有如下保证:gydF4y2Ba

引理3.3(非正式)。gydF4y2Ba让年代gydF4y2Ba=gydF4y2BaGgydF4y2Ba∪gydF4y2BaE \ SgydF4y2BargydF4y2Ba是一个gydF4y2BaεgydF4y2Ba-损坏的点集合gydF4y2BaNgydF4y2Ba(gydF4y2BaμgydF4y2Ba,gydF4y2Ba我gydF4y2Ba)gydF4y2Ba至少是大小gydF4y2Bacacm6405_cv.gifgydF4y2Ba.gydF4y2Ba那么,至少是有概率的gydF4y2Ba0.99gydF4y2Ba经过一个简单的预处理步骤后,该滤波器满足以下性质:gydF4y2Ba⊆gydF4y2Ba年代令人满意gydF4y2BaΓ(gydF4y2BaGgydF4y2Ba,gydF4y2Ba年代gydF4y2Ba')≤2gydF4y2BaεgydF4y2Ba,gydF4y2Ba过滤器gydF4y2Ba

  1. 输出gydF4y2Bacacm6405_bt.gifgydF4y2Ba这gydF4y2Bacacm6405_cw.gifgydF4y2Ba,gydF4y2Ba或gydF4y2Ba
  2. 输出T,因此gydF4y2BaΓ(gydF4y2BaGgydF4y2Ba,gydF4y2BaTgydF4y2Ba)≤Γ(gydF4y2BaGgydF4y2Ba,gydF4y2Ba年代gydF4y2Ba”)−gydF4y2BaεgydF4y2Ba/gydF4y2BaαgydF4y2Ba,gydF4y2Ba在哪里gydF4y2BaαgydF4y2Ba=gydF4y2BadgydF4y2Ba日志(gydF4y2BadgydF4y2Ba/gydF4y2BaεgydF4y2Ba)日志(gydF4y2BadgydF4y2Ba日志(gydF4y2BadgydF4y2Ba/gydF4y2BaεgydF4y2Ba))。gydF4y2Ba

请注意Γ(gydF4y2BaGgydF4y2Ba,gydF4y2Ba年代gydF4y2Ba)≤2gydF4y2BaεgydF4y2Ba最初。现在应用引理3.3,我们可以保证过程在最多之后终止gydF4y2BaOgydF4y2Ba(α)迭代。当我们终止时,还是根据引理3.3,我们保证会输出gydF4y2Bacacm6405_bt.gifgydF4y2Ba,接近真实均值。如前所述,滤波器的每次应用都需要计算a的顶特征向量gydF4y2BadgydF4y2Ba×gydF4y2BadgydF4y2Ba矩阵,它会非常慢。然而,事实证明,对顶部特征向量的粗略逼近足以保证滤波算法的正确性,因此,通过近似幂法,每次迭代都可以在接近线性的时间内完成。gydF4y2Ba

凸规划方法。gydF4y2Ba第二种方法使用引理3.2背后的直觉有些不同。我们不是试图直接删除所有的结果异常值,而是寻求迭代地减少它们的影响。让gydF4y2Ba年代gydF4y2Ba=gydF4y2BaGgydF4y2Ba∪gydF4y2BaE \ SgydF4y2BargydF4y2Ba是一个gydF4y2BaεgydF4y2Ba-损坏的点集。对于每个点gydF4y2BaXgydF4y2Ba我gydF4y2Ba∈gydF4y2Ba年代gydF4y2Ba,我们关联一个非负权值gydF4y2BawgydF4y2Ba我gydF4y2Ba.理想情况下,我们希望这些权重是一致的gydF4y2Ba年代gydF4y2Ba\E,否则为零。gydF4y2Ba先天的gydF4y2Ba我们唯一知道的是gydF4y2Ba年代gydF4y2Ba\E是它的大小至少为(1 -gydF4y2BaεgydF4y2Ba)gydF4y2BaNgydF4y2Ba.因此,增加重量是一个自然的限制gydF4y2BawgydF4y2Ba它们必须位于权重集的凸包内,这些权重集在大小集(1 -gydF4y2BaεgydF4y2Ba)gydF4y2BaN。gydF4y2Ba这是下面的集合:gydF4y2Ba

eq04.gifgydF4y2Ba

鉴于此,我们可以表明,对引理3.2的轻微扩展表明,它足以找到一组权值gydF4y2BawgydF4y2Ba∈gydF4y2BaWgydF4y2BangydF4y2Ba,gydF4y2BaεgydF4y2Ba这就是经验分布gydF4y2Ba年代gydF4y2Ba有了这些权值,在定心后,光谱接近恒等gydF4y2BaμgydF4y2Ba.为了让这个更正式,对于任何gydF4y2BawgydF4y2Ba∈gydF4y2BaWgydF4y2BaNgydF4y2Ba,gydF4y2BaεgydF4y2Ba,让gydF4y2Ba

ueq12.gifgydF4y2Ba

为经验分布的均值和协方差gydF4y2Ba年代gydF4y2Ba,带权重gydF4y2Baw。gydF4y2Ba定义也gydF4y2Ba

ueq13.gifgydF4y2Ba

是经验协方差,只不过我们以未知分布的真实均值为中心。请注意,gydF4y2Ba米gydF4y2Ba(gydF4y2BawgydF4y2Ba)是的线性函数gydF4y2BawgydF4y2Ba特别地,它是一个凸函数。那么,它足以解决以下凸问题:gydF4y2Ba

eq05.gifgydF4y2Ba

在哪里gydF4y2BaCgydF4y2Ba> 0是一个普适常数。如果gydF4y2BawgydF4y2Ba∈gydF4y2BaWgydF4y2BaNgydF4y2Ba,gydF4y2BaεgydF4y2Ba满足(5)那么就可以证明了gydF4y2BaμgydF4y2Ba(gydF4y2BawgydF4y2Ba)接近gydF4y2BaμgydF4y2Ba有很高的概率,前提是gydF4y2BaNgydF4y2Ba=Ω(gydF4y2BadgydF4y2Ba/gydF4y2BaεgydF4y2Ba2gydF4y2Ba).gydF4y2Ba

求解(5)有一个明显的难点,即对(5)的描述需要对的知识gydF4y2BaμgydF4y2Ba,我们希望估计的参数!幸运的是,我们仍然可以为(5)构造一个分离oracle,这将足以计算一个解。特别是,给定gydF4y2BawgydF4y2Ba∈gydF4y2BaWgydF4y2BaNgydF4y2Ba,gydF4y2BaεgydF4y2Ba,我们想要一个算法gydF4y2Ba

  1. 如果gydF4y2BawgydF4y2Ba满足(5),输出YES和gydF4y2Ba
  2. 否则,输出超平面gydF4y2BaℓgydF4y2Ba这gydF4y2BaℓgydF4y2Ba(gydF4y2BawgydF4y2Ba) > 0但是gydF4y2BaℓgydF4y2Ba(gydF4y2Baw 'gydF4y2Ba) < 0为所有gydF4y2Baw 'gydF4y2Ba令人满意的(5)。gydF4y2Ba

首先,请注意,如果我们知道gydF4y2BaμgydF4y2Ba,那么构建这样的神谕就很简单了。的最大特征值λgydF4y2Ba米gydF4y2Ba(gydF4y2BawgydF4y2Ba) - - -gydF4y2Ba我gydF4y2Ba在大小上,和它相关的特征向量gydF4y2Bav。gydF4y2Ba如果|λ| >gydF4y2BaCgydF4y2BaεgydF4y2Ba日志1 /gydF4y2BaεgydF4y2Ba,输出YES。如果不是,观察到下面是分离的超平面gydF4y2BawgydF4y2Ba:gydF4y2Ba

eq06.gifgydF4y2Ba

σ是λ的符号。gydF4y2Ba

现在我们需要消除我们知道的假设gydF4y2BaμgydF4y2Ba.关键的洞见是引理3.2允许我们替换Σ(gydF4y2BawgydF4y2Ba) - - -gydF4y2Ba我gydF4y2Baλ和的大小和相关特征向量gydF4y2BavgydF4y2Ba,和gydF4y2BaμgydF4y2Ba(gydF4y2BawgydF4y2Ba)gydF4y2BaμgydF4y2Ba在较高的水平上,这是因为如果gydF4y2BaμgydF4y2Ba(gydF4y2BawgydF4y2Ba)接近gydF4y2BaμgydF4y2Ba,然后Σ(gydF4y2BawgydF4y2Ba)非常接近gydF4y2Ba米gydF4y2Ba(gydF4y2BawgydF4y2Ba).另一方面,如果gydF4y2BaμgydF4y2Ba(gydF4y2BawgydF4y2Ba)离gydF4y2BaμgydF4y2Ba,则引理3.2保证中心点引起的位移gydF4y2BaμgydF4y2Ba(gydF4y2BawgydF4y2Ba)而不是gydF4y2BaμgydF4y2Ba的大特征值掩盖了gydF4y2Ba米gydF4y2Ba(gydF4y2BawgydF4y2Ba) - - -gydF4y2Ba我。gydF4y2Ba

*gydF4y2Ba3.4.鲁棒协方差估计gydF4y2Ba

作为稳健学习均值算法基础的几何直觉,也构成了稳健学习协方差算法的基础。这一次,我们暂时将注意力限制在零均值的高斯函数上。在稳健均值估计的情况下,引理3.2指出,由一小部分异常值引起的第一个矩的偏移会导致第二个矩的明显偏差。事实证明,同样的原理也适用于稳健学习协方差,我们只需要使用更高的矩。特别是,如果我们想要检测什么时候经验第二矩被一小部分异常值破坏了,那么在第四矩中必须有一些证据。然而,要做到这一点需要技术支持。gydF4y2Ba

在较高的水平上,主要的困难是在鲁棒平均估计的情况下,我们知道gydF4y2Ba结构gydF4y2Ba第二时刻,即使我们不知道它的意思。也就是说,我们假设协方差是恒等。然而,第四个矩的结构很大程度上依赖于未知的协方差,因此,为这种设置制定引理3.2的适当类比是不平凡的。gydF4y2Ba

幸运的是,高斯函数的第二个矩和第四个矩之间的关系遵循一个可预测的公式,作为一个特例gydF4y2BaIsserlis的定理。gydF4y2Ba对于任何向量gydF4y2BaνgydF4y2Ba∈RgydF4y2BadgydF4y2Ba,让gydF4y2BaνgydF4y2Ba⊗gydF4y2BaνgydF4y2Ba∈RgydF4y2BadgydF4y2Ba2gydF4y2Ba的张量积gydF4y2BavgydF4y2Ba与本身。类似地,对于任何矩阵gydF4y2Ba米gydF4y2Ba∈RgydF4y2BadgydF4y2Ba×gydF4y2BadgydF4y2Ba,让gydF4y2Ba米gydF4y2Ba⊗2gydF4y2Ba∈RgydF4y2BadgydF4y2Ba2gydF4y2Ba×gydF4y2BadgydF4y2Ba2gydF4y2Ba是它和自己的张量积。最后,让gydF4y2Ba米gydF4y2Ba∈RgydF4y2BadgydF4y2Ba2gydF4y2Ba是gydF4y2BadgydF4y2Ba2gydF4y2Ba由扁平化得到的-维向量gydF4y2Ba米gydF4y2Ba变成一个向量。然后,关键恒等式如下:对于任何协方差矩阵Σ,我们有gydF4y2Ba

eq07.gifgydF4y2Ba

考虑未知协方差Σ条件良好的情况,使其足以学习Σ到Frobenius范数的小误差。让{gydF4y2BaXgydF4y2Ba1gydF4y2Ba、……gydF4y2BaXgydF4y2BaNgydF4y2Ba是…gydF4y2BaεgydF4y2Ba-损坏的数据集和设置gydF4y2BaYgydF4y2Ba我gydF4y2Ba=gydF4y2BaXgydF4y2Ba我gydF4y2Ba⊗gydF4y2BaXgydF4y2Ba我gydF4y2Ba对所有gydF4y2Ba我gydF4y2Ba∈(gydF4y2BaNgydF4y2Ba].如果gydF4y2BaYgydF4y2Ba我gydF4y2Ba未被破坏,则E[gydF4y2BaYgydF4y2Ba我gydF4y2Ba= ΣgydF4y2Ba,因此在Frobenius范数中恢复Σ正好对应于学习未损坏的平均值gydF4y2BaYgydF4y2Ba我gydF4y2Ba到小误差gydF4y2BaℓgydF4y2Ba2gydF4y2Ba规范。此外,由(7),未损坏的协方差gydF4y2BaYgydF4y2Ba我gydF4y2Ba是2 ΣgydF4y2Ba⊗2gydF4y2Ba.gydF4y2Ba

因此,学习协方差减少为均值估计问题的复杂变体,其中协方差依赖于未知的均值,但以结构化的方式。它们之间的关系很好如果经验均值gydF4y2BaYgydF4y2Ba我gydF4y2Ba被异常值破坏,那么这仍然表现为?的经验协方差的较大特征值gydF4y2BaYgydF4y2Ba我gydF4y2Ba.这允许我们为这个设置制定一个更复杂的引理3.2的类比(参见Diakonikolas等人的权利要求4.29)。gydF4y2Ba4gydF4y2Ba).到那时,利用这个几何结构,我们可以设计滤波和凸规划方法的推广,以鲁棒地学习协方差。gydF4y2Ba

*gydF4y2Ba3.5.装配通用算法gydF4y2Ba

在这一点上,我们已经设计了有效的算法来解决我们的一般问题的两个重要子情况。具体来说,我们可以gydF4y2Ba

  1. 强劲的估计gydF4y2BaNgydF4y2Ba(gydF4y2BaμgydF4y2Ba,gydF4y2Ba我gydF4y2Ba),直到错误gydF4y2Bacacm6405_cx.gifgydF4y2Ba在总变异距离和gydF4y2Ba
  2. 强劲的估计gydF4y2BaNgydF4y2Ba(0, Σ),直到错误gydF4y2BaOgydF4y2Ba(gydF4y2BaεgydF4y2Ba日志(1 /gydF4y2BaεgydF4y2Ba))为总变异距离。gydF4y2Ba

事实上,我们可以将这些原语组合到一个算法中,在一般情况下都能工作gydF4y2BaμgydF4y2Ba和Σ是未知的。第一个观察结果是,我们可以使用加倍技巧(即使在存在噪声的情况下)将平均值归零。特别是,给定两个独立的样本gydF4y2BaXgydF4y2Ba1gydF4y2Ba而且gydF4y2BaXgydF4y2Ba2gydF4y2Ba从分布中得到gydF4y2BaεgydF4y2Ba-接近高斯分布gydF4y2BaNgydF4y2Ba(gydF4y2BaμgydF4y2Ba, Σ),他们的区别gydF4y2BaXgydF4y2Ba1gydF4y2Ba- - - - - -gydF4y2BaXgydF4y2Ba2gydF4y2Ba将是2gydF4y2BaεgydF4y2Ba-接近分布到gydF4y2BaNgydF4y2Ba(0, 2Σ)。gydF4y2Ba

第二个观察结果是,给出一个估计值gydF4y2Bacacm6405_ch.gifgydF4y2Ba对于协方差,我们可以近似地使我们的数据集变白。在应用转换之后gydF4y2Bacacm6405_cy.gifgydF4y2Ba对于我们的数据,我们从gydF4y2Ba

ueq14.gifgydF4y2Ba

这gydF4y2Ba几乎gydF4y2Ba适合于只有均值未知的设置,因为得到的协方差矩阵接近(但不完全等于)单位矩阵。幸运的是,我们可以利用算法的鲁棒性来处理这个错误,因为数据是由一个分布生成的gydF4y2BaOgydF4y2Ba(gydF4y2BaεgydF4y2Ba日志(1 /gydF4y2BaεgydF4y2Ba))-接近具有恒等协方差的高斯函数。把这些碎片放在一起,我们得到一个误差保证gydF4y2BaOgydF4y2Ba(gydF4y2BaεgydF4y2Ba日志gydF4y2Ba3/2gydF4y2Ba(1 /gydF4y2BaεgydF4y2Ba))。总体算法在算法1中描述。我们将使用gydF4y2BaXgydF4y2Ba而且gydF4y2BaY;gydF4y2Ba表示输入到各种子程序中的一组样本。gydF4y2Ba

算法1gydF4y2Ba一种鲁棒学习高斯函数的算法gydF4y2Ba

  1. 函数gydF4y2BaRECOVERROBUSTGAUSSIAN (gydF4y2BaεgydF4y2Ba,gydF4y2BaXgydF4y2Ba1gydF4y2Ba、……gydF4y2BaXgydF4y2Ba2gydF4y2BaNgydF4y2Ba)gydF4y2Ba
  2. 让gydF4y2Bacacm6405_ch.gifgydF4y2Ba←LEARNCOVARIANCE (4gydF4y2BaεgydF4y2Ba, χ)gydF4y2Bacacm6405_cz.gifgydF4y2Ba
  3. 让gydF4y2Bacacm6405_bt.gifgydF4y2Ba←LEARNMEAN (gydF4y2BaOgydF4y2Ba(gydF4y2BaεgydF4y2Ba日志(1 /gydF4y2BaεgydF4y2Ba)),gydF4y2BaYgydF4y2Ba)gydF4y2Bacacm6405_da.gifgydF4y2Ba
  4. 返回gydF4y2Bacacm6405_db.gifgydF4y2Ba

回到顶部gydF4y2Ba

4.实验gydF4y2Ba

我们的算法(或者更确切地说,它们的自然变体)不仅在效率和鲁棒性方面有可证明的保证,而且被证明是高度实用的。在Diakonikolas等人的著作中,gydF4y2Ba5gydF4y2Ba我们研究了它们在合成数据和真实数据上的性能,并在本节中讨论结果。gydF4y2Ba

在gydF4y2Ba图1gydF4y2Ba,我们证明了我们的结果合成数据,估计的平均值和协方差的高斯。我们将我们的滤波方法与Lai等人的算法进行比较,gydF4y2Ba20.gydF4y2Ba经验插件估计器,经验估计器结合修剪,随机样本一致性(RANSAC),gydF4y2Ba11gydF4y2Ba以及几何中位数(用于平均估计)。第一行图显示了各向同性高斯函数的平均估计gydF4y2BaεgydF4y2Ba= 0.1),第二行显示各向同性高斯的协方差估计,第三行显示具有高度倾斜协方差矩阵的高斯的协方差估计gydF4y2BaεgydF4y2Ba= 0.05)。第一列图比较了所有的方法,而第二列图省略了不太准确的方法,以便在我们的算法和竞争方法之间进行更细粒度的比较。每个图的x轴表示问题的维度,y轴表示估计方法引起的误差,其中0的基线是插件估计器对未损坏数据的误差。在gydF4y2Ba图1gydF4y2Ba,对于平均估计图,该误差通过gydF4y2BaℓgydF4y2Ba2gydF4y2Ba-距离,而协方差估计,这是衡量的马氏距离。gydF4y2Ba

f1.jpggydF4y2Ba
图1。合成数据的鲁棒参数估计。我们的方法(过滤)在均值估计(第一行)和协方差估计(最后两行)方面都优于所有备选方法。gydF4y2Ba

在所有的实验中,我们发现我们的算法优于所有其他方法,通常都有很大的优势。正如理论预测的那样,随着维度的增加,我们的误差似乎保持不变,但对于所有其他方法都是增加的(尽管对于LRV方法是最小的,因为它只依赖于维度的对数)。对于平均估计,我们的方法比LRV的性能更好,而LRV的性能又比所有备选方案都好得多。在协方差估计中也观察到类似的趋势,尽管在估计偏倚协方差时结果尤其明显,在这种情况下,我们的方法比所有其他方法都要好几个数量级。gydF4y2Ba

在我们的半合成实验中,显示在gydF4y2Ba图2gydF4y2Ba,我们回顾了Novembre等人的一项经典研究。gydF4y2Ba21gydF4y2Ba在本研究中,作者从POPRES项目中获得了高维基因组数据集。他们在每个数据点上标注了个人的原籍国,并将数据集投影到数据集的前两个主要组件上。如图左上角所示gydF4y2Ba图2gydF4y2Ba他们发现,结果的投影与欧洲地图非常相似,因此有了“基因反映地理”的谚语。然而,在上面的描述中省略了一个关键的人工数据管理过程,在这个过程中移民被从数据集中删除,因为他们被认为是基因异常值。我们的方法提供了一种自动的、有原则的去除异常值的方法。gydF4y2Ba

f2.jpggydF4y2Ba
图2。半合成数据的稳健探索性数据分析。左上角的图显示了高维基因组数据集在其顶部两个主成分上的投影,类似于欧洲地图(中)。在合成异常值的存在下,这种结构就消失了(右上)。我们的稳健协方差估计方法允许我们保留这个结构(下)。gydF4y2Ba

在我们的实验中,我们将原始数据集投影到前20个主成分上。我们注入合成噪声点(gydF4y2BaεgydF4y2Ba= 0.1),并重复上述实验过程。即使有一个修剪步骤,我们发现经验估计不能保持欧洲的结构(右上)gydF4y2Ba图1gydF4y2Ba).然而,我们的方法(基于稳健的高斯协方差估计算法)能够相对忠实地重建原始的欧洲地图(左下和右下)gydF4y2Ba图1gydF4y2Ba).尽管我们的过滤器是为高斯数据设计的,但该方法在基因组数据(不一定是高斯数据)上以最小的改变工作。gydF4y2Ba

回到顶部gydF4y2Ba

参考文献gydF4y2Ba

1.阿瓦斯蒂,巴尔坎,m.f.,朗,下午局部化在有效学习带噪声线性分压器中的作用。在gydF4y2Ba46人会议记录gydF4y2BathgydF4y2BaACM年度计算理论研讨会gydF4y2Ba, STOC '14 (New York, NY, USA, 2014), ACM, 449-458。gydF4y2Ba

2.李建军,李建军,李建军。高维计算效率的鲁棒稀疏估计。在gydF4y2Ba30人会议记录gydF4y2BathgydF4y2Ba学习理论年会gydF4y2Ba, colt '17(2017), 169-212。gydF4y2Ba

3.Charikar, M, Steinhardt, J, Valiant, G.从不可信的数据中学习。在gydF4y2Ba会议记录gydF4y2BathgydF4y2BaACM年度计算理论研讨会gydF4y2Ba, STOC '17(纽约,纽约,美国,2017),ACM, 47-60。gydF4y2Ba

4.Diakonikolas, I., Kamath, G., Kane, d.m., Li, J., Moitra, A., Stewart, A.没有计算难处理性的高维鲁棒估计。在gydF4y2Ba57人会议记录gydF4y2BathgydF4y2Ba计算机科学基础年度IEEE研讨会gydF4y2Ba, FOCS '16(华盛顿,DC, USA, 2016), IEEE计算机学会,655-664。gydF4y2Ba

5.Diakonikolas, I., Kamath, G., Kane, d.m., Li, J., Moitra, A., Stewart, A.健壮(在高维空间)可以是实用的。在gydF4y2Ba34人会议记录gydF4y2BathgydF4y2Ba机器学习国际会议gydF4y2Ba, ICML '17 (2017), JMLR, Inc., 999-1008。gydF4y2Ba

6.Diakonikolas, Kamath, G, Kane, D.M, Li, J, Moitra, A, Stewartz, A.稳健学习高斯函数:有效地获得最优误差。在gydF4y2Ba29人会议记录gydF4y2BathgydF4y2Ba离散算法ACM-SIAM年度研讨会gydF4y2BaSODA '18(费城,PA, USA, 2018), SIAM。gydF4y2Ba

7.Diakonikolas, Kamath, G., Kane, d.m., Li, J., Steinhardt, J., Stewart, A. Sever:一个鲁棒的随机优化元算法。在gydF4y2Ba36人会议记录gydF4y2BathgydF4y2Ba机器学习国际会议gydF4y2Ba, ICML '19 (2019), JMLR, Inc., 1596-1606。gydF4y2Ba

8.Diakonikolas, I., Kane, D.M.算法高维稳健统计的最新进展。gydF4y2Ba相关系数gydF4y2Ba,美国农业部/1911.05911,2019。gydF4y2Ba

9.Diakonikolas, Kane, d.m., Stewart, A.高维高斯和高斯混合物鲁棒估计的统计查询下界。在gydF4y2Ba58人会议记录gydF4y2BathgydF4y2Ba计算机科学基础年度IEEE研讨会gydF4y2Ba, FOCS '17 (Washington, DC, USA, 2017), IEEE计算机学会,73-84。gydF4y2Ba

10.Diakonikolas, I., Kane, d.m., Stewart, A.列表可解码的鲁棒均值估计和球形高斯的学习混合。在gydF4y2Ba50年会议记录gydF4y2BathgydF4y2BaACM年度计算理论研讨会gydF4y2Ba, STOC '18(纽约,NY, USA, 2018), ACM, 1047-1060。gydF4y2Ba

11.随机样本共识:应用于图像分析和自动制图的模型拟合范例。gydF4y2BaCommun。ACM 6gydF4y2Ba, 24(1981), 381-395。gydF4y2Ba

12.论理论统计的数学基础。gydF4y2Ba菲尔。反式。r . Soc。Lond。爵士。594 - 604gydF4y2Ba, 222(1922), 309-368。gydF4y2Ba

13.汉佩尔,f.r.,朗凯蒂,e.m.,卢梭,p.j.,斯塔尔,W.A.gydF4y2Ba稳健统计:基于影响函数的方法。gydF4y2Ba威利,霍博肯,新泽西州,2011年。gydF4y2Ba

14.混合模型、鲁棒性和平方和证明。在gydF4y2Ba50年会议记录gydF4y2BathgydF4y2BaACM年度计算理论研讨会gydF4y2Ba, STOC '18(纽约,NY, USA, 2018), ACM,新泽西州霍博肯,1021-1034。gydF4y2Ba

15.Huber, p.j., Ronchetti, E.M.gydF4y2Ba健壮的统计数据。gydF4y2Ba威利,2009年。gydF4y2Ba

16.Johnson, d.s., prepareata, F.P.最密集的半球问题。gydF4y2Ba定理。综合科学1gydF4y2Ba, 6(1978), 93-107。gydF4y2Ba

17.卡恩斯,M.J,沙皮尔,r.e.,塞利,L.M.:迈向高效不可知论学习。gydF4y2Ba马赫。学习。2 - 3gydF4y2Ba, 17(1994), 115-141。gydF4y2Ba

18.Klivans, a.r., Long, p.m., Servedio, R.A.学习带有恶意噪声的半空间。gydF4y2Baj·马赫。学习。Res。gydF4y2Ba, 10(2009), 2715-2740。gydF4y2Ba

19.Kothari, P, Steinhardt, J, Steurer, D.基于平方和的鲁棒矩估计和改进聚类。在gydF4y2Ba50年会议记录gydF4y2BathgydF4y2BaACM年度计算理论研讨会gydF4y2Ba, STOC '18(纽约,NY, USA, 2018), ACM, 1035-1046。gydF4y2Ba

20.赖,饶,A.B, Vempala, S.均值和协方差的不可知论估计。在gydF4y2Ba57人会议记录gydF4y2BathgydF4y2Ba计算机科学基础年度IEEE研讨会gydF4y2Ba, FOCS '16(华盛顿,DC, USA, 2016), IEEE计算机学会,665-674。gydF4y2Ba

21.诺文伯,J.,约翰逊,T.,布赖克,K.,库塔利克,Z.,博伊科,a.r.,奥顿,A.,因达普,A.,金,K.S.,伯格曼,S.,纳尔逊,m.r.,斯蒂芬斯,M.,布斯塔曼特,C.D.基因反映了欧洲的地理。gydF4y2Ba自然gydF4y2Ba7218, 456(2008), 98-101。gydF4y2Ba

22.普拉萨德,萨格拉,巴拉克里什南,S,拉维库玛,P.基于鲁棒梯度估计的鲁棒估计。gydF4y2BaarXiv预打印arXiv:1802.06485gydF4y2Ba(2018)。gydF4y2Ba

23.高分解点的多元估计。gydF4y2Ba数学。中央集权。达成。gydF4y2Ba, 8(1985), 283-297。gydF4y2Ba

24.污染分布的抽样调查。在gydF4y2Ba《概率与统计:纪念哈罗德·霍特林的散文》的投稿gydF4y2Ba,斯坦福大学出版社,斯坦福,加利福尼亚州,1960,448-485。gydF4y2Ba

25.数学与数据的描绘。在gydF4y2Ba国际数学家大会论文集gydF4y2Ba(1975),美国数学学会,523-531。gydF4y2Ba

回到顶部gydF4y2Ba

作者gydF4y2Ba

伊利亚斯DiakonikolasgydF4y2Ba(gydF4y2Bailias@cs.wisc.edugydF4y2Ba),威斯康星大学,麦迪逊,威斯康星州,美国。gydF4y2Ba

Gautam KamathgydF4y2Ba(gydF4y2Bag@csail.mit.edugydF4y2Ba),加拿大滑铁卢大学。gydF4y2Ba

丹尼尔·m·凯恩gydF4y2Ba(gydF4y2Badakane@cs.ucsd.edugydF4y2Ba),加利福尼亚大学,圣地亚哥,加利福尼亚州,美国。gydF4y2Ba

杰瑞李gydF4y2Ba(gydF4y2Bajerrl@microsoft.comgydF4y2Ba),微软AI研究院,雷德蒙德,华盛顿州,美国。gydF4y2Ba

Ankur MoitragydF4y2Ba(gydF4y2Bamoitra@mit.edugydF4y2Ba),麻省理工学院,剑桥,MA, USA。gydF4y2Ba

阿利斯泰尔•斯图尔特gydF4y2Ba(gydF4y2Bastewart.al@gmail.comgydF4y2Ba), Web3基金会,楚格,瑞士。gydF4y2Ba

回到顶部gydF4y2Ba

脚注gydF4y2Ba

本作品采用创作共用署名国际4.0许可。gydF4y2Ba

本文的原始版本题为“无计算难处理的高维鲁棒估计”,发表于gydF4y2Ba57人会议记录gydF4y2BathgydF4y2BaIEEE年度大会。计算机科学基础课程。gydF4y2Ba也出版了一个版本gydF4y2Ba计算机gydF4y2Ba, 2019年。gydF4y2Ba


©2021 acm 0001-0782/21/5gydF4y2Ba

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限gydF4y2Bapermissions@acm.orggydF4y2Ba传真(212)869-0481。gydF4y2Ba

数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc.gydF4y2Ba


没有找到条目gydF4y2Ba

Baidu
map