acm-headergydF4y2Ba
登录gydF4y2Ba

ACM通信gydF4y2Ba

研究突出了gydF4y2Ba

技术角度:BWT的压缩功率gydF4y2Ba


白色方块集合,插图gydF4y2Ba

来源:盖蒂图片社gydF4y2Ba

大量和高度重复的文本收集正在几种现代应用中出现。例如,英国的一个项目在2018年成功对10万个人类基因组进行测序,这些基因组以普通形式存储需要300 tb。此外,有效执行生物信息学所需的复杂搜索所需的数据结构将使存储空间增加另一个数量级,达到pb级。gydF4y2Ba

如何处理这些大量的重复数据?我们可以考虑压缩(毕竟,两个人类基因组的差异约为0.1%),但这并不是决定性的答案——我们需要一种方法来解压数据,然后才能使用它。一个更有野心的研究领域,gydF4y2Ba压缩数据结构gydF4y2Ba,承诺存储数据gydF4y2Ba而且gydF4y2Ba在接近压缩数据的空间内有效处理它所需的结构。数据永远不会被解压;它将始终以压缩形式直接使用。gydF4y2Ba

然而,在这些重复的数据集上,统计压缩是无用的。像Lempel-Ziv这样的字典压缩技术性能要好得多,因为它们通过引用之前看到的相同块来替换文本块。Lempel-Ziv可以将我们收集的基因组压缩到原来的100倍,达到3 tb。但是,这只是压缩。我们能否设计基于字典压缩的压缩数据结构,提取片段,甚至有效地搜索基因组,而不解压?gydF4y2Ba

关于这一挑战已经有大量的研究。即使是在不从一开始就解压文本的情况下提取一个片段也是很棘手的。我们不知道如何在Lempel-Ziv上做到这一点,但在稍微弱一点的字典压缩格式上是可以做到的,比如语法压缩(在这种格式中,可以找到生成文本的与上下文无关的小语法)。提供高效的搜索更加困难:在那些庞大的收藏中,连续扫描文本是不可能的。我们必须建立一个gydF4y2Ba指数gydF4y2Ba加速搜索的数据结构。与统计压缩不同,字典压缩器倾向于将文本分割成片段,因此所查找的子字符串可以以多种不同的形式出现。尽管存在这些挑战,但目前有各种压缩索引提供了对短字符串的高效访问和搜索,并且它们的大小受大小限制gydF4y2BazgydF4y2BaLempel-Ziv编码或大小gydF4y2BaggydF4y2Ba语法压缩。gydF4y2Ba

生物信息学的应用需要更复杂的搜索。他们需要搜索允许的错误,搜索一个长字符串的所有子字符串,找到频繁的足够长的文本子字符串,找到在文本中重复出现的最长的子字符串,以及许多其他的。gydF4y2Ba

这是弦学中最受欢迎的数据结构gydF4y2Ba后缀树gydF4y2Ba,可以有效地回答所有这些复杂的问题。但是,它需要大量的空间——比纯文本多一个数量级。为了应用于生物信息学,它经过了各种简化和空间缩减。研究人员展示了如何用gydF4y2Ba后缀数组gydF4y2Ba-树叶gydF4y2Ba后缀树gydF4y2Ba-然后是gydF4y2BaFM-indexgydF4y2Ba-a统计压缩后缀数组。gydF4y2Ba

fm索引建立在Burrows-Wheeler变换(BWT)的基础上,BWT是文本的一种排列,使其更容易压缩。人们很快就发现,BWT的特征是等量连续的符号,随着文本的重复性增加,这些符号变得更长。数量gydF4y2BargydF4y2Ba在BWT中,跑步的次数变成了一种重复的方式gydF4y2BazgydF4y2Ba或gydF4y2Bag。gydF4y2Ba进一步的研究管理,在空间范围内gydF4y2BargydF4y2Ba,不仅可以提取片段和执行基本搜索,还可以支持后缀树提供的所有复杂搜索(这种压缩不会削减文本,所以事情更简单)。gydF4y2Ba


下面这篇论文是两位组合模式匹配领域的新星所写的美丽杰作。gydF4y2Ba


同时,研究人员旨在了解重复文本的压缩极限,根据不同子串的数量获得下界。随着时间的推移,我们发现所有的可压缩性测度和下界都夹在一个对数因子内,所以它们都是相对接近的,除了gydF4y2Bar。gydF4y2Ba

这项措施gydF4y2BargydF4y2Ba它提供了一个复杂的搜索世界,似乎是一个例外。它介于统计压缩和字典压缩之间,是唯一不受其他方法限制的度量。在实践中,结构基于gydF4y2BargydF4y2Ba确实比基于的数据要大gydF4y2BazgydF4y2Ba或gydF4y2BaggydF4y2Ba,这引发了人们对其效果的担忧gydF4y2BargydF4y2Ba重复捕获。gydF4y2Ba

下面的论文最终解决了这个问题。它证明了gydF4y2BargydF4y2Ba最大距离是一个对数平方因子吗gydF4y2BazgydF4y2Ba,验证gydF4y2BargydF4y2Ba作为重复性的衡量标准。同时,它也证实了之前的直觉gydF4y2BargydF4y2Ba不是那么小。但至少我们现在知道了从基础搜索到复杂字符串搜索的代价——这是生物信息学所需要的。gydF4y2Ba

除了结果的相关性之外,这篇论文是一部美丽的杰作,探讨了许多其他的结果。它是由组合模式匹配中的两位新星所写。我希望在未来的岁月里听到他们更多的声音。gydF4y2Ba

回到顶部gydF4y2Ba

作者gydF4y2Ba

冈萨洛纳瓦罗gydF4y2Ba是智利大学计算机科学系的一名教授。gydF4y2Ba

回到顶部gydF4y2Ba

脚注gydF4y2Ba

查看所附文件,请访问gydF4y2Badoi.acm.org/10.1145/3531445gydF4y2Ba


版权归作者所有。gydF4y2Ba
向所有者/作者请求(重新)发布许可gydF4y2Ba

数字图书馆是由计算机协会出版的。版权所有©2022 ACM股份有限公司gydF4y2Ba


没有发现记录gydF4y2Ba

登录gydF4y2Ba为完全访问gydF4y2Ba
»忘记密码?gydF4y2Ba *创建ACM Web帐户gydF4y2Ba
文章内容:gydF4y2Ba
Baidu
map