信贷:丽塔Steffenson
高斯混合模型(GMM)是最古老、应用最广泛的统计模型之一。它由异构高斯源的加权组合组成。作为一个简单的一维例子,考虑对某一人口中成年人身高的测量,其中的身高分布可以近似为两个单变量高斯的混合,一个是男性的,一个是女性的。3.一个>我们能从没有标记的身高测量(没有性别信息)中恢复高斯参数吗?
gydF4y2Ba我们的工作集中在混合物由少量未知数量的高斯“组分”组成的情况下<我>重叠我>组合密度甚至可能只有一个峰值,就像在高度的例子中一样,而且维数可能很高。以前关于这个问题的许多工作都试图通过聚类来了解参数,因此需要对混合物中的组分做出很强的分离假设。我们的研究的主要贡献是通过基于混合的代数结构的学习算法来避免这种假设。即使组件几乎完全重叠,我们的算法也会成功,在这种情况下,精确的聚类不再可能。
gydF4y2Ba我们给出了一个简单的GMM的“条件数”的概念,它将其复杂性刻画为多项式因子。一般来说,结论是<我>样品的复杂性我>而且<我>计算复杂度我>除了依赖于高斯数之外,这个一般问题的解都是多项式的,而高斯数必然是指数的。
gydF4y2Ba统计学家早就知道,从GMM的随机样本中可以识别出高斯数据<我>在极限情况下我>只要给出足够多的例子,我们最终可以恢复到任意精度的每个高斯分量的均值、方差和比例。14一个>然而,他们的分析对收敛速度没有限制,随着样本数量的增加,收敛可能是<我>对数我>即使是一维的两个高斯量也会慢。此外,即使问题具有合理的样本复杂度,如何产生一个先验的不清楚的<我>计算我>高效的算法。在实践中,广泛使用的启发式算法,如EM算法,存在局部最优问题,理论保障薄弱。
gydF4y2Ba在开创性的工作中,Dasgupta5一个>提出多项式时间<我>聚类我>学习gmm的方法,在某些假设下被证明是准确的。特别是,如果高斯函数是充分“分离”的,那么通常可以将所有来自同一高斯函数的样本组合在一起。作为一种副产品,参数估计很容易通过分别估计平均值、协方差矩阵和每个聚类的样本比例进行。此后,越来越强大的聚类技术(需要所有高斯对之间的“可分离性假设”)迅速得到了分析。1一个>,<一个href="#R2">2一个>,<一个href="#R4">4一个>,<一个href="#R6">6一个>,<一个href="#R11">11一个>,<一个href="#R16">16一个>
在某种意义上,参数估计问题比聚类问题更基本,因为精确的参数估计可以很容易地用于精确的聚类。在高斯函数可能重叠的一般情况下,不可能以任何程度的信心聚类这些点,就像我们不能根据一个人的身高(比如1.7米)来准确预测性别一样。尽管如此,仅从身高数据仍然可以恢复两个组成高斯的均值、方差和混合权重。因此,虽然我们不能将单个样本聚类,但我们可以分解高斯混合并有效地分离出高斯成分。
<我mg src="https://portal.acm.org/images/bullet.gif" vspace="2" alt="*gydF4y2Ba">1.1.我们的方法
gydF4y2Ba我们描述了一个多项式时间GMM学习算法,我们始终强调,我们倾向于以不实用为代价的清晰的表示和易于分析。该算法基于随机投影方法(参见Vempala)15一个>).由于一个多正态分布在一维上的投影是一个正态分布,所以一个GMM在一维上的投影就是一个GMM。粗略地说,该算法将数据投影到一个向量序列上,求解一维学习问题的相关序列,然后重构原始高维GMM问题的解。
gydF4y2Ba要完善这一方法,必须克服几个障碍。首先也是最重要的,是在一维上解决问题的问题。如果愿意诉诸暴力搜索,一维问题通常很容易解决;对于学习gmm的问题,已经提到过,边界必然是高斯分量的指数级,因此,人们可能期望粗糙的蛮力搜索足以解决一维情况。我们证明了这是正确的。一维情况的困难不在于设计算法,而在于保证这种粗糙的蛮力搜索可以在一个足够粗的网格上进行。我们通过建立,我们称之为<我>多项式的可识别性我>我们将在第4节中讨论。
gydF4y2Ba假设对一维问题有一个有效的算法,我们的高级方法中的第二个障碍是确保作为一维算法输入的投影数据是有意义的。例如,考虑一个GMM,它由两个具有相同协方差但不同均值的高斯分量组成。不幸的是,如果我们将数据投射到一个与均值之差正交的向量上,那么得到的一维混合物将只有一个组分。使这一问题进一步复杂化的是gmm的存在,如在<一个href="#F3">图3一个>,两个或两个以上本质上不重叠的分量将以非常高的概率在随机投影中投射到几乎相同的高斯函数。如果在几乎每一个投影中,它们都是不可区分的,我们怎么能希望把这些组成部分理清呢?
gydF4y2Ba我们证明,这个问题只能出现在一定的光谱条件下。但是,当这个条件成立时,我们证明基于集群的方法是成功的。具体地说,当光谱条件满足时,我们将能够将数据样本划分为两个集合,这样,从第一个集合中抽取样本的高斯分量(几乎)与从第二组样本中抽取样本的高斯分量(几乎)不相交。因此,样品的这种划分对应于GMM分成两个子混合物的划分;然后我们可以递归地将我们的算法应用到这两组样本中的每一组。
gydF4y2Ba为了说明清楚,在第3节中,我们首先描述了算法的简化版本,它不需要聚类和递归步骤,但性能保证略弱。在第5节中,我们将描述完整的算法。
我们算法的输入是<我>n点<我>d尺寸,独立于GMM绘制<我mg src="https://dl.acm.org/cms/attachment/6e8a4f95-040d-4f43-8595-ae27cd13da01/cacm5502_v.gif" border="0" hspace="2" alt="cacm5502_v.gifgydF4y2Ba">,<我>混合重量w我>我我>> 0满意我我>w我>我我>= 1,与<我>k不同的<我>高斯组件F我>我我>,每个<我>F我我>=<我>N(<我>我>我我>,我我>)是一个独特的<我>d-维高斯带均值我我>Rd我>和协方差矩阵我我>Rd×d我>.输出是一个估计的GMM<我mg src="https://dl.acm.org/cms/attachment/23be3307-fea3-4b04-8f9a-d78fcb7661bb/cacm5502_w.gif" border="0" hspace="2" alt="cacm5502_w.gifgydF4y2Ba">.估计算法的目标是正确学习<我>k进一步逼近<我>参数集我>{(w1,1,1),…, (<我>wk我>,k我>,k我>)}。注意,人们不能指望学习组件的正确顺序<我>F我我>,因为任何排列都会导致相同的分布。
gydF4y2Ba测量高斯函数之间的距离<我>N(,),N(', ')时,我们使用<我>统计距离我>.这个自然度量更一般地定义为概率分布。对分布<我>G而且<我>G’我>用各自的概率密度函数<我>g而且<我>g’我>,统计距离定义为
如果分布相同,则此量为零,如果分布具有不相交支持,则此量为一。统计距离作为度量的主要优点是它度量了两个分布的信息论相似性;例如,如果两个分布<我>一个我>而且<我>B有<我>D电视我>(A, B)我>=0.01,然后<我>没有我>算法可以区分100个样本的集合<我>一个我>从100个样本中<我>B概率大于2/3。统计距离的第二个优点是它是标度不变和仿射不变的,这意味着两个分布的相同标度不影响距离。相比之下,欧氏误差估计如<我mg src="https://dl.acm.org/cms/attachment/82fda537-ebea-4ee3-b335-0d8774577d93/verbar_c.gif" border="0" hspace="2" alt="verbar_c.gifgydF4y2Ba">'<我mg src="https://dl.acm.org/cms/attachment/82fda537-ebea-4ee3-b335-0d8774577d93/verbar_c.gif" border="0" hspace="2" alt="verbar_c.gifgydF4y2Ba">2而且<我mg src="https://dl.acm.org/cms/attachment/ff5e850c-1b41-444b-8bde-727fba7a3e3a/cacm5502_x.gif" border="0" hspace="2" alt="cacm5502_x.gifgydF4y2Ba">随着问题规模的扩大而改变。一个一个>
我们现在定义了一个控制学习特定GMM的“难易程度”的量。
gydF4y2Ba定义1。<我>G米米的条件号(F)<我mg src="https://dl.acm.org/cms/attachment/fb0ae59c-5918-418f-8b60-e1489e3042e2/cacm5502_y.gif" border="0" hspace="2" alt="cacm5502_y.gifgydF4y2Ba">被定义为我>
任何估计算法都至少需要与(成比例的样本数量。<我>F)才有机会作出准确的估计。原因是需要1/<我>w我我>样本要有恒概率遇到单个样本所产生<我>F我我>.因此,对于非常小的<我>w我我>,大样本量是必要的。同样,即使一个人确切地知道两个概率分布<我>F而且<我>F', 1需要1/<我>D电视我>(<我>F,F')样本有一个恒定的概率来区分所有样本产生的情况<我>F或者所有的样本都来自<我>F'.因此,至少线性依赖于(<我>F)是必需的,而我们的结果是多项式依赖于(<我>F).
gydF4y2Ba现在我们准备陈述我们的主要定理。
gydF4y2Ba定理1。<我>对于每一个k我>1,<我>有一个常数c我>k我>,<我>依赖于k,令以下成立。对于任何d维GMM我><我mg src="https://dl.acm.org/cms/attachment/596a23b1-aba9-4f7e-aa35-0138e340fb27/cacm5502_z.gif" border="0" hspace="2" alt="cacm5502_z.gifgydF4y2Ba">,<我>而且我><我mg src="https://dl.acm.org/cms/attachment/658a16c5-882c-4a46-94cb-60e84f7fa043/cacm5502_aa.gif" border="0" hspace="2" alt="cacm5502_aa.gifgydF4y2Ba">,<我>当从F输出GMM中独立抽取n个样本时的估计算法我><我mg src="https://dl.acm.org/cms/attachment/bd629fe8-b2d0-48a0-8720-735d4c3f2185/cacm5502_ab.gif" border="0" hspace="2" alt="cacm5502_ab.gifgydF4y2Ba">这样,有可能我><我mg src="https://dl.acm.org/cms/attachment/51ab49a6-7dcd-4675-9a64-c8f36928a293/cacm5502_ac.gif" border="0" hspace="2" alt="cacm5502_ac.gifgydF4y2Ba">存在一种排列我>{1,2,…,<我>k}<我>这样我>
估计算法的运行时间是样本数n的多项式我>.b一个>
2.1.解释
gydF4y2Ba我们的算法取a作为输入样本<我>d维GMM<我>F的参数估计<我>F.主定理表明,作为样本的数量,<我>n时,我们估计的误差越大,越小<我>O(<我>d/n)),其中是一个常数,它只取决于分量的数量,<我>k.这种收敛速度是惊人的,因为它表现出一种多项式(而不是指数)依赖于维度的数量,<我>d,因为它表现出对样本数量的逆多项式依赖。这与假设的反对数收敛速率相反。9一个>最后,大- oh符号隐藏了一个前导常数,它与混合物的条件数有多项式关系,(<我>F).
gydF4y2Ba在学习者有合理上界的应用中<我>k而且<我>我>(<我>F),我们可以确定需要多少数据来学习一个好的估计的上界,并相应地运行我们的算法。相反,如果两者都有上界<我>k或(<我>F)是失踪,<我>每一个我>估计器可能会被愚弄,输出含有错误数量成分的混合物,或者输出与真正的GMM相差很远的混合物。
gydF4y2Ba虽然我们算法的运行时和数据需求是高斯分量数量的超指数函数,但不幸的是,我们表明,指数依赖于<我>k至少在高斯函数有明显重叠的情况下是必要的。我们给出了一个简单的混合结构<我>k(多项式地)指数接近单个高斯的重叠高斯。这种情况与前面提到的仅多项式依赖于的聚类算法是相反的<我>k.因此,当存在大量分离良好的高斯数据时,聚类似乎是更好的方法。
<我mg src="https://portal.acm.org/images/bullet.gif" vspace="2" alt="*gydF4y2Ba">2.2.历史及相关工作
gydF4y2Ba也许最早的GMM研究是由卡尔·皮尔森在19世纪90年代进行的。12一个>他得到了一个数据集,由那不勒斯附近发现的1000只螃蟹的测量数据组成,并推测该数据集是由两个组成部分组成的GMM,对应于两种螃蟹。皮尔逊然后试图恢复估计的参数两个假设的物种,使用<我>矩量法我>.特别是,他计算了前六个(原始)力矩的经验估计<我mg src="https://dl.acm.org/cms/attachment/5d8305d3-52c4-49b9-8033-c0de7b54ccec/cacm5502_ad.gif" border="0" hspace="2" alt="cacm5502_ad.gifgydF4y2Ba">,因为<我>我我>=1,2,…,6from sample points<我>x1、……<我>xn我>RgydF4y2Ba.只用了前五阶,他就解出了一个构造巧妙的九次多项式,<我>用手我>,他由此推导出一组候选混合参数。最后,他启发式地选择了其中第六个矩与经验估计最接近的候选人。
gydF4y2Ba皮尔逊承认,这种方法的潜在问题是鲁棒可识别性的问题。也许存在两种不同的混合物,其中一种混合物的成分与另一种混合物的成分相差甚远,但两种混合物的密度和力矩却极其相似。我们证明这是不可能的,在某种意义上验证了皮尔逊的方法。
gydF4y2Ba最近,由于大量高维数据集的出现,学习gmm的问题被理论计算机科学界重新讨论。在这个由达斯古普塔发起的研究中,5一个>一队计算机科学家设计<我>多项式时间我>高维识别和聚类算法。1一个>,<一个href="#R2">2一个>,<一个href="#R4">4一个>,<一个href="#R6">6一个>,<一个href="#R11">11一个>,<一个href="#R16">16一个>的问题<我>聚类我>是将点划分为集合,希望每个集合中的点来自不同的高斯值。这项任务通常需要高斯人拥有很少的东西<我>重叠我>(统计距离接近1);在许多情况下,他们能够找到计算效率高的算法,适用于超过两个高斯的gmm。
gydF4y2Ba回想一下,我们的目标是学习混合物<我>F=我我>w我>我我>F我>我我>在一个<我>组件的组件我>的基础上。一个比较容易但也引起了一些注意的问题是学习<我>密度函数我>整个混合物的<我>F不需要计算出各个部件的参数。最近,提出了一种多项式时间密度估计算法<我>一个x我s-aligned我>G米米s,没有任何非重叠假设。8一个>,<一个href="#FNC">c一个>
最后,我们注意到有大量关于gmm学习问题的启发式文献,例如<我>E米算法我>.7一个>我们工作的重点是算法<我>可证明的我>担保。即使像EM算法这样的启发式算法在实践中经常工作得很好,这些方法也不能保证收敛到真实的参数。更糟糕的是,EM算法(即使对于只有两个高斯的单变量混合物)被观察到收敛非常缓慢(参见Redner和Walker的详细处理)13一个>),如果算法是从一个错误的起点初始化的。
我们首先描述一个简单的算法,该算法演示了我们学习gmm的方法。虽然该算法的性能保证略弱于第5节描述的完整算法,但将高维问题简化为一系列一维学习问题的机制已经很清楚了。
<我mg src="https://portal.acm.org/images/bullet.gif" vspace="2" alt="*gydF4y2Ba">3.1.一个<一个href="#UF1">简单的一维算法一个>
有人会认为,(近似地)确定单变量高斯混合变量的参数的问题在算法上应该是容易的,因为我们可以求助于蛮力搜索。然而,令人惊讶的困难在于证明对粗糙的参数网格进行蛮力搜索不会返回错误的估计。例如,如果有两个不同的(单变量的)高斯的混合物没有<我>关闭我>参数,但仍然非常接近的分布在统计距离?证明蛮力搜索有效的核心挑战是证明这个假设的例子不能产生两个没有相似参数的(单变量)高斯的混合物必须是明显不同的。
gydF4y2Ba为了证明这一点,我们呼吁<我>矩量法我>首先由皮尔森介绍。我们证明了混合物<我>k高斯多项式是“多项式稳健性可识别的”也就是说,如果两个混合物最多<我>k高斯分量有足够不同的参数,那么其中一个低阶矩将明显不同。事实上,前四位之一<我>k2.时刻会明显不同,有明显的混合<我>k可以在第一个线性上精确匹配的高斯函数<我>k许多的时刻。
gydF4y2Ba我们的一维学习算法将从一个GMM中多项式地抽取多个样本<我>k,计算前4个<我>k这组样本的2个矩。我们称之为<我>经验的时刻我>.那么对于每个候选参数集{(<我>我>1,2一个>1,<我>w1),…, (<我>我>k我>,2一个>k我>w我>k我>}在我们的网格中,我们解析计算前4个<我>k对应分布的2个矩,并将这些值与经验矩进行比较。如果前四个<我>k- 2个解析计算力矩足够接近相应的经验力矩,则我们宣布成功并输出该候选参数集。
gydF4y2Ba通过基本浓度界限,我们可以证明,无论真正的参数是什么,网格中最接近的参数集将以很高的概率通过测试。因此,算法几乎总是输出一组参数。算法的正确性依赖于证明算法永远不会输出一组离真正的参数集太远的参数。第4节展示了GMMsis的多项式鲁棒可辨识性,旨在建立该算法的正确性。注意,在两个高斯混合的情况下,这种蛮力搜索只考虑第一个<我>六个我>时刻,因此我们能够获得<我>可证明的我>皮尔逊理论的变体<我>第六力矩测试我>.
<我mg src="https://portal.acm.org/images/bullet.gif" vspace="2" alt="*gydF4y2Ba">3.2.一个简单的高维算法
gydF4y2Ba给定来自高维GMM的样本,我们的策略是将问题简化为一系列一维学习问题。目标是得到,对于混合物中的每个成分,当投影到许多不同的方向时,该成分的均值和协方差矩阵的估计。对于每个分量,我们可以使用这些估计值来建立一个关于该分量的高维均值和协方差矩阵的线性约束系统。然后可以求解这个系统,得到这些高维参数的良好估计值。
gydF4y2Ba我们选择一个向量<我>v均匀随机地从单位球和<我>d2一个>扰动<我>v1, - 1…,<我>vd, d我>的<我>v.对于每个方向<我>v我,我我>,我们将混合物投射到方向上<我>v我,我我>运行我们的一维学习算法。因此我们得到一组<我>d2一个>一维混合物的参数<我>k高斯函数。我们现在必须标明这些成分<我>d2一个>混合一致,这样对于每一个<我>我我>=1,…,<我>k,我我>的第一个高斯分量<我>d2一个>一维混合对应于高维分量的投影<我>我我>所有其他一维混合物的分量。
gydF4y2Ba在第5节的完整算法所适用的一般设置中,我们并不总是能够做到这种一致的标记。为了实现我们简单的高维学习算法,我们将假设某种技术条件,使一致标记变得容易。具体地说,我们假设原始混合物中的所有成分都具有明显不同的参数。我们证明,如果每一对分量说,<我>N(<我>我>),N(<我>我>”、“)<我mg src="https://dl.acm.org/cms/attachment/82fda537-ebea-4ee3-b335-0d8774577d93/verbar_c.gif" border="0" hspace="2" alt="verbar_c.gifgydF4y2Ba">'<我mg src="https://dl.acm.org/cms/attachment/82fda537-ebea-4ee3-b335-0d8774577d93/verbar_c.gif" border="0" hspace="2" alt="verbar_c.gifgydF4y2Ba">2>,或者<我mg src="https://dl.acm.org/cms/attachment/82fda537-ebea-4ee3-b335-0d8774577d93/verbar_c.gif" border="0" hspace="2" alt="verbar_c.gifgydF4y2Ba">'<我mg src="https://dl.acm.org/cms/attachment/82fda537-ebea-4ee3-b335-0d8774577d93/verbar_c.gif" border="0" hspace="2" alt="verbar_c.gifgydF4y2Ba">Fr我>><我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">,那么在随机选择的方向上有很高的概率<我>v,则投影均值或投影方差至少相差poly<我mg src="https://dl.acm.org/cms/attachment/bb12ee3a-fdc8-490e-b9da-8361f033550e/cacm5502_ae.gif" border="0" hspace="2" alt="cacm5502_ae.gifgydF4y2Ba">.直观地说,这使得一致的标签很容易,因为当我们将数据投射到<我>v,每个组成部分都明显不同。因为每一<我>v我,我我>是的小扰动吗<我>v,即任何高维分量在上面的投影<我>v而且<我>v我,我我>将是相似的,允许容易一致的标签。
gydF4y2Ba对于原始混合物中的每个成分,标记后,我们有一个估计的成分的均值和方差,当投影到每个方向<我>v我,我我>.高斯投影的一维参数通过线性方程组与高维参数联系起来。如果我们的一维估计不是<我>估计我>,但<我>确切的我>然后我们可以反解这个方程组得到<我>确切的我>高维参数。我们限定了这个方程组的条件数,确保如果我们的一维估计值接近,那么我们就可以得到高维参数的良好估计值。
<我mg src="https://portal.acm.org/images/bullet.gif" vspace="2" alt="*gydF4y2Ba">3.3.性能简单的算法
gydF4y2Ba下面的命题描述了<我><一个href="#UF2">简单的高维算法一个>我>上面所描述的。
gydF4y2Ba命题1。<我>存在一个常数c我>k我>依赖于k,这样给定一个GMM中的n个独立样本<我mg src="https://dl.acm.org/cms/attachment/9282fa4f-e095-43b1-a1fc-ac3730e0528d/cacm5502_af.gif" border="0" hspace="2" alt="cacm5502_af.gifgydF4y2Ba">d维中k' k个分量的概率我>1简单的高维算法,在输入k上运行时,<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">, n个样本将返回一个GMM<我mg src="https://dl.acm.org/cms/attachment/3b499f5f-934e-481a-a3ed-048ce6fdc752/cacm5502_ag.gif" border="0" hspace="2" alt="cacm5502_ag.gifgydF4y2Ba">这样,存在一个成分的标签,满足所有i,<我mg src="https://dl.acm.org/cms/attachment/28dc410b-05ed-4ca7-a154-96f1b84f51f9/cacm5502_ah.gif" border="0" hspace="2" alt="cacm5502_ah.gifgydF4y2Ba">,<我mg src="https://dl.acm.org/cms/attachment/aeac6b72-923c-4236-8a91-c246e2079625/cacm5502_ai.gif" border="0" hspace="2" alt="cacm5502_ai.gifgydF4y2Ba">只要下列条件符合:我>
估计算法的运行时间是样本数的多项式我>.
gydF4y2Ba该算法的性能与建立定理1的更通用算法的性能之间的关键区别在于距离度量。这里,输入的混合物需要有<我>参数我>彼此之间至少有差别<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">.我们的更通用的算法执行于来自gmm的样本,其成分可以有任意相似的参数,只要成分之间的统计距离至少是<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">.此外,这种简单算法返回的混合物只保证其参数在欧氏距离上非常接近于真参数,而更通用的算法返回的混合物在参数距离和统计距离上都保证非常接近。
众所周知,两个组成成分不同的gmm不可能具有相同的概率密度(参见Teicher,14一个>例如),这通常被称为“可识别性”。因此,给定任意多个样本的访问权,一个<我>可以我>将GMM的参数恢复到任何所需的精度。然而,为了使用有限的数据进行学习,我们需要一种明显更健壮的可识别形式。
gydF4y2Ba考虑两个gmm<我>F,F'在重新标签之前,谁的参数集不同<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">也就是说,无论如何将第一个GMM的成分与第二个GMM的成分进行匹配,总有一些成分的均值、方差或混合权重至少是不同的<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">从其他混合物中相应的组分。考虑到参数集的差异,统计距离是多少<我>D(F,F)?我>如果答案是1/的逆指数<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">,那么我们多项式高效学习的目标是没有希望的,因为所有学习gmm的算法都必然需要所需精度的数据指数量。另一种说法是,GMM参数的最优估计的收敛速度在样本数量上最多为反对数。
gydF4y2Ba幸运的是,这样的依赖不是必要的,我们证明gmm是“多项式稳健性可识别的”:如果混合物<我>F,F'有不同的参数集<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">,至少混合权重<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">,那么它们的统计距离为<我>聚我>(<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">),对于任何固定数量的组件。事实上,我们通过证明一定有一个<我>聚我>(<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">的最初几分钟的差异<我>F而且<我>F'.对于最多的混合物<我>k考虑到前四个分量<我>k2个力矩就足够了。
gydF4y2Ba定理2。<我>存在一个常数c我>k我>,依赖于k,这样给定一对一维gmm, F, F',最多由k个分量组成,其中(F), (F')我><1/,<我>如果,我我>4k2,
那么F和F'有相同数量的分量。此外,F和F′的分量之间存在对应关系,使得对应分量之间的均值、方差和混合权重的差异最大<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">.
gydF4y2Ba上述定理保证了如果两个gmm具有非常相似的低阶矩,则参数集也必须非常相似,从而保证了第3节中学习一维gmm的简单暴力搜索算法的正确性。
<我mg src="https://portal.acm.org/images/bullet.gif" vspace="2" alt="*gydF4y2Ba">4.1.反褶积和时刻
gydF4y2Ba我们对GMM的多项式鲁棒可识别性的证明依赖于考虑如果一个人将GMM的概率密度函数通过精心选择的方差的高斯“反卷积”会发生什么。两个高斯函数的卷积是高斯函数,正如两个正态随机变量的和是正态的。因此,我们也可以考虑混合的“反褶积”通过一个高斯的方差,这是一个简单的操作,从混合中的每个高斯的方差中减去:<我>我>1,2一个>1,<我>w1),…, (<我>我>k我>,2一个>k我>w我>k我>)},我们将-反卷积混合定义为参数集{(1,2一个>1,<我>w1),…, (k我>,2一个>k我>w我>k我>)},只要< min .2一个>我我>.
gydF4y2Ba考虑这种转换后的混合物的直觉是,通过减少每个高斯分量的方差,我们可以通过减少分量的重叠来有效地解纠缠混合物。为了说明这一直觉,假设我们反卷积为接近任何分量的最小方差。除非最小的方差高斯与另一个混合物中的高斯密切匹配(在均值、方差和混合权重上),否则反褶积后两个混合物将有很大的统计距离。另一方面,如果最小方差高斯是紧密匹配的,那么这对组分可以从各自的gmm中剥离出来,因为这对组分对两个混合物之间的差异的贡献可以忽略不计。然后我们可以用归纳法。
gydF4y2Ba不幸的是,反褶积变换不能保持两个分布之间的统计距离。然而,我们表明,它至少大致地保留了分布的低阶矩的差异。具体地说,让<我>F(F)我>表示-反卷积混合的结果<我>F,我们证明如果有一个<我>我我>4k2.使…<我>我我>th的时刻<我>F(F)我>至少是poly(<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">)不同于<我>我我>th的时刻<我>F(F)我>然后是一个<我>j4k2.使…<我>jth的时刻<我>F至少是poly(<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">)不同于<我>jth的时刻<我>F'.为了简化符号,令<我>米我>我我>[<我>F] =ExF我>[<我>x我我>].
gydF4y2Ba引理3。<我>假设F或F'中的每个组成高斯函数在区间内都有方差我>[1]。<我>然后我>
这里的关键观察是<我>F而且<我>F(F)我>由一个简单的线性变换联系起来,这也可以被看作是厄米特多项式的递归关系。
<我mg src="https://portal.acm.org/images/bullet.gif" vspace="2" alt="*gydF4y2Ba">4.2.差异在时刻
gydF4y2Ba反褶积操作为我们提供了一种方法,在两个具有足够不同参数的混合物之间产生一个大的统计距离。此外,反褶积近似地保留了低阶矩的差异。所以剩下的就是证明两个混合物(经过适当的反褶积)不仅有很大的统计距离,而且有不可忽略的矩差。
gydF4y2Ba为了实现这一点,我们证明最多有4个<我>k2个密度差的零交叉点,<我>f=fF (F)我>(F)我>然后我们构造一个4次矩阵<我>k两个多项式<我>p(<我>x),总是有相同的符号<我>f(<我>x),这样当<我>p(<我>x)与<我>f(<我>x)结果至少是poly(<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">).我们构造这个多项式使得系数是有界的,这意味着存在某个力矩<我>我我>(最多是多项式的次数)<我>我我>最原始的时刻<我>F(F)我>和<我>F(F)我>很大。
gydF4y2Ba第一步是证明任意两种混合物的密度函数之间的逐点差<我>k高斯函数要么等于零,要么最多等于4<我>k2零交叉。这个界限很容易被证明是紧的。我们对这一事实的证明依赖于以下定理,由胡梅尔和吉达斯提出10一个>:
gydF4y2Ba定理4 (Hummel and Gidas中的thm2.1)10一个>).<我>鉴于f (x)我>:<我mg src="https://dl.acm.org/cms/attachment/fa4e226d-e4a0-402a-b1be-263c752fb176/cacm5502_al.gif" border="0" hspace="2" alt="cacm5502_al.gifgydF4y2Ba">,<我>它是解析的,有n个0,那么对于任意我>2一个>> 0,<我>函数g(x) = f(x)°N我>(0,2一个>,<我>x)<我>最多有n个0我>.
gydF4y2Ba有了这个定理,我们就可以通过反褶积来分离最小的方差分量,去掉这个分量,然后进行归纳,从而证明零交叉数的上限;根据上面的定理,反褶积不会减少零交叉的次数,因为我们用这种方法删除的每个分量本质上都是一个脉冲函数,它的删除最多减少两个零交叉的次数。
gydF4y2Ba定理2的证明是这样进行的:给定一对参数集不同的一维广义gmm:(1)去掉密切对应的一对广义gmm的所有分量,这对广义gmm的矩差影响可以忽略不计;(2)对最薄剩余分量的方差进行反卷积;(3)由于该分量接近于狄拉克函数,且第二GMM中不存在密切匹配的分量,反卷积GMM具有不可忽略的统计距离;(4)不可忽略的统计距离意味着不可忽略的矩差;(5)如果两个gmm的其中一个低阶矩存在差异,那么经过高斯卷积后,仍会有某个低阶矩存在差异。
我们现在激励并描述我们学习gmm的通用算法,该算法具有高概率,返回的混合物的成分在统计距离方面是准确的。为了直观地了解简单高维算法无法处理的混合类型,考虑中描述的三个组分的混合物<一个href="#F3">图3一个>.两个窄分量非常相似:它们的均值和协方差矩阵几乎相同。由于极大的概率,这种混合在任何一维空间上的投影将导致在任何合理的数据量下,这两个分量变得难以区分。尽管如此,这两个成分之间的统计距离接近于1,因此,从理论上讲,我们<我>应该我>能够区分它们。
gydF4y2Ba如果在几乎每一个一维投影中,这两个分量都是不可区分的,我们怎么能希望把它们分开呢?示例中还提供了解决方案的直观感受:我们可以将这两个组件聚类并递归。特别是,有一个向量(对应于这两个分量方差小的方向),如果我们将所有数据投射到这个方向,窄高斯对几乎完全与第三个分量“解纠缠”。在这个方向上投影时,几乎所有与两个窄分量对应的数据都会包含在一个小区间内,而第三个分量产生的数据几乎都不会包含在这个区间内。
gydF4y2Ba如果我们能够成功地将原始混合物聚类成两个子混合物,我们就可以递归。其核心见解是,如果我们考虑只对应于两个窄高斯的子混合,那么我们可以通过应用仿射变换重新缩放空间,使结果的均值和方差在每个方向上分别为0和1。这种重新缩放的效果是沿着小方差的方向拉伸这个子混合物。在两个高斯混合的结果中,如果我们在一个随机选择的方向上投影,分量<我>将我>是明显不同的。
gydF4y2Ba我们的<一个href="#UF3">完整的算法一个>在每一步中,我们的算法要么学习一个好的估计并输出这个估计,要么将混合物聚类为两个适当的子混合物并递归。本节的其余部分将致力于解释我们如何学习小方差的方向,从而在不能直接应用的情况下启用聚类和递归步骤<我>简单的高维算法我>学习GMM组件的良好估计。
<我mg src="https://portal.acm.org/images/bullet.gif" vspace="2" alt="*gydF4y2Ba">5.1.学习计划的方向
gydF4y2Ba如何找到一个方向上某些分量方差很小的向量?直观地说,找到这个方向似乎需要了解真正的混合情况。我们的方法将是首先了解一个接近某些混合物的估计值<我>分区我>的真实成分,从而获得一些洞察混合物的一般结构。
gydF4y2Ba假设我们添加<我>d-维高斯噪声的样本从GMM的例子<一个href="#F3">图3一个>.这将会使每一个成分都“发胖”。“增肥”后,两个窄分量的统计距离极小。所以我们可以在这种“增肥”的混合物上运行我们的简单学习算法。尽管这个分布是三个高斯分布的混合物,但这个混合物在统计上非常接近于两个高斯分布的混合物。我们的简单学习算法将返回两个高斯的估计混合,其属性是每个分量都接近于“增肥”分布的子混合。
gydF4y2Ba因此,这个估计中的一个分量将对应于两个窄分量的子混合。通过检查这个分量,我们注意到它是“瘦的”(在调整协方差矩阵以考虑我们人为添加的噪声之后)。因此,如果我们计算这个协方差矩阵的最小特征向量,我们就可以恢复一个方向,这个方向允许我们将原始混合物聚类为两个子混合物并递归。
gydF4y2Ba如果<我>简单的高维算法我>是在GMM的样本上运行,其中所有组件都有较大的最小特征值(例如,如果样本已经“肥胖”),那么算法,当以目标精度运行时<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">,只要对每对组分,统计距离至少为其中之一,就能成功地学习混合物<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">,或最多<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">" < <<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">,在那里<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">' =<我>p(<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">)为某个多项式<我>p.在某些分量都有最多成对统计距离的情况下<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">,那么简单的高维算法将永远不会意识到这些组件对应于独立的组件,而只会返回一个单独的组件来代替这个集合。难点在于当存在一些统计距离在这个区间内的分量对时<我>窗口我>[<我>p(<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">),<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">].在这种情况下,<我>简单的高维算法我>没有可证明的保证。
gydF4y2Ba以避免寻找目标精度的潜在困难<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">如果在相关的不可接受窗口内没有对组件具有统计距离,那么只需运行目标精度范围内的高维算法,<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">1、……<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">k我>2一个>与<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">我我><<我>p(<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">我我>1).虽然我们永远不知道哪一次成功了,但最多有几次<我mg src="https://dl.acm.org/cms/attachment/0a0f1689-8214-4e7b-aa58-e13cdc6109a2/cacm5502_am.gif" border="0" hspace="2" alt="cacm5502_am.gifgydF4y2Ba">成对的统计距离,并且每个成对的统计距离可以落入最多一次运行的不可接受窗口,因此大多数运行将会成功。剩下的就是找到一组至少<我>k2一个>/2一致的运行:给定运行返回的两组参数,具有目标精度<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">1<<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">2方法返回的组件存在某种满射映射,则我们说它们是一致的<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">1控件返回的组件<我mg src="https://dl.acm.org/cms/attachment/dbf1215e-3a24-49c7-92f3-729a5af55077/isin.gif" border="0" hspace="2" alt="isin.gifgydF4y2Ba">2运行,使每个分量的均值和协方差与其图像相似。因此,至少可以找到这样的一条链<我>k2一个>/2连续运行,得到一组精确的参数。
虽然我们的算法对组分数量的依赖是超指数的,但我们也描述了一个下界,表明至少有指数依赖是必要的,即使对于仅一维的混合物也是如此。我们通过给出一个明确的结构来证明这一点<我>k为两个一维gmm的<我>F1,<我>F2最多由<我>k混合权重和组分之间的成对统计距离至少为1/2的高斯分量<我>k.此外,在一个混合物的组分之间的任何对应关系中<我>F1混合物的组分<我>F2,至少有一个组件<我>F1的均值或方差与的对应分量的均值或方差至少相差1<我>F2.尽管如此,<我>D电视我>(<我>F1,<我>F2) < 1 /<我>eO (k)我>,因此,从理论上讲,信息是不可能区分一组<我>eo (k)我>样本<我>F1从一组<我>eo (k)我>样本<我>F2,因此不可能在任何大于0.6的概率下将组件参数返回到±1/2以内。
gydF4y2Ba定理5。<我>存在一对gmm F我>1,<我>F2每个分量最多k个,条件个数最多我>2kD等我>电视我>(F我>1,<我>F2) = 1 /<我>eO (k)我>,但对于F的任何分量之间的映射我>1和F我>2,<我>有一个分量的方差与其图像的方差至少相差1我>.
gydF4y2Ba它的构造取决于逆指数<我>k统计之间的距离<我>N(0,2),以及无穷多个单位方差的高斯的混合物,其分量的中心是的倍数<我mg src="https://dl.acm.org/cms/attachment/6e4fda26-1515-4388-99d5-a7f88d6423d0/cacm5502_an.gif" border="0" hspace="2" alt="cacm5502_an.gifgydF4y2Ba">,其中分配给组件的权值以<我mg src="https://dl.acm.org/cms/attachment/186cc339-a93c-492d-8372-ac34f2446c99/cacm5502_ao.gif" border="0" hspace="2" alt="cacm5502_ao.gifgydF4y2Ba">是由<我mg src="https://dl.acm.org/cms/attachment/eae027c8-95a4-4c41-baa9-749f8df29b84/cacm5502_ap.gif" border="0" hspace="2" alt="cacm5502_ap.gifgydF4y2Ba">.验证这种说法是傅里叶分析的一个练习。然后我们稍微修改结构,使两个gmm最多<我>k分量,所有分量的重量至少是1/2<我>k.
我们研究的主要贡献是得到了第一个处理<我>样品的复杂性我>而且<我>计算复杂度我>对于这个问题,需要学习多少样本,需要多长时间,在哪些参数中这些是指数或多项式?虽然我们不知道可达到的最佳速率,但区分多项式和指数是一个很好的开始。
gydF4y2Ba渐近保证仅仅是用来指导哪些算法可能表现良好。我们目前的算法在任何有意义的意义上都没有被设计成实用的。然而,我们希望它为未来的算法工作打开一扇门,这些算法既具有实际效用,又具有理论上的动机,例如,不受局部最优影响的高效估计器。
1.关于混合分布的光谱学习。在<我>柯尔特我>(2005), 458469。
<一个n一个me="R2">
<一个n一个me="R3">3.Brainard, J., Burmaster, D.E.美国男女身高和体重的双变量分布。<我>肛门风险。12我>, 2(1992), 267275。
<一个n一个me="R4">4.布鲁贝克,s.c., Vempala, S.各向同性PCA和仿射不变聚类。在<我>foc我>(2008), 551560。
<一个n一个me="R5">5.学习高斯混合。在<我>foc我>(1999),63.4644。
<一个n一个me="R6">6.高斯混合物的两轮EM变体。在<我>可用我>(2000), 152159。
<一个n一个me="R7">7.登普斯特,a.p.,莱尔德,新m,鲁宾,D.B.通过EM算法从不完全数据中获得最大可能性。<我>j·罗伊。中央集权。Soc。爵士。B 39我>, 1(1977), 138。
<一个n一个me="R8">8.费尔德曼,J., Servedio, R.A, O'Donnell, R. PAC学习轴向高斯混合不分离假设。在<我>柯尔特我>(2006), 2034。
<一个n一个me="R9">9.徐德明,张涛。隐马尔可夫模型学习的光谱算法。在<我>柯尔特我>,2009年。
<一个n一个me="R10">10.哈梅尔,罗德岛,吉达斯,不列颠哥伦比亚省,零交叉和热方程。<我>第111号技术报告,纽约大学库朗数学科学研究所我>,1984年。
<一个n一个me="R11">11.靳楠楠,张文华,张文华。一般混合模型的光谱方法。<我>康普特。38我>, 3(2008), 11411156。
<一个n一个me="R12">12.对数学进化论的贡献。<我>费罗斯。反式。r . Soc。185年伦敦奥运会我>(1984),71110。
<一个n一个me="R13">13.混合密度,极大似然和EM算法。<我>暹罗启26我>(1984),19523.9。
<一个n一个me="R14">14.混合物的可鉴别性。<我>安。数学。集权。32我>, 1(1961), 244248。
<一个n一个me="R15">15.Vempala, S.随机投影法。<我>离散数学与理论计算机科学DIMACS系列我>,vol.65。<我>美国数学学会我>,2004年。
<一个n一个me="R16">16.王国强,王晓明,王晓明。一种学习混合模型的光谱算法。<我>j.第一版。系统。Sci 68。我>, 4(2004), 841860。
亚当Tauman伊布gydF4y2Ba(<一个href="mailto:adum@microsoft.com">adum@microsoft.com一个>),微软研究院,新英格兰,剑桥,马萨诸塞州。
一个nkur MoitragydF4y2Ba(<一个href="mailto:moitra@ias.edu">moitra@ias.edu一个>),高级研究所,普林斯顿,新泽西州。
gydF4y2Ba格雷戈里勇敢的gydF4y2Ba(<一个href="mailto:gvaliant@eecs.berkeley.edu">gvaliant@eecs.berkeley.edu一个>),加州大学伯克利分校,加州伯克利分校。
a.此外,在所有参数都有界的情况下,保证较低的统计距离意味着较低的欧氏距离。
<一个n一个me="FNB">
<一个n一个me="FNC">
gydF4y2Ba这项工作以“有效地学习两个高斯函数的混合物”(Kalai, Moitra, Valiant, STOC 2010)和“确定高斯函数混合物的多项式学习性”(Moitra, Valiant, FOCS 2010)两种形式出现。
图1。成年女性(红色)和男性(蓝色)身高的高斯近似。如果只给出没有性别标签(黑色)的汇总数据,是否可以恢复对这些高斯分量的估计?[NHANES的原始数据]。
©2012 acm 0001-0782/12/02 $10.00
gydF4y2Ba允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限<一个href="mailto:permissions@acm.org">permissions@acm.org一个>传真(212)869-0481。
数字图书馆是由计算机协会出版的。版权所有©2012 ACM, Inc.
没有发现记录