acm-header
登录

一个CM通信

贡献的文章

抽象的基因组学


基因组图

图片来源:马里兰大学帕克学院

人类是自然和后天的产物,这意味着我们的表型(所有外在的、可测量的特征,包括我们的健康参数)是两个因素的作用:我们的基因型(所有细胞中的DNA程序)和环境(人类的所有输入,如食物和药物)。这种安排类似于程序的输出(如搜索引擎)是程序和输入(用户输入的关键字)的函数。在不同的程序中使用相同的输入(例如谷歌搜索vs. Bing)可能会产生不同的输出。在这个类比中,医学专业人员的角色是提供“诊断”(例如,“根据观察到的输出,程序中是否存在错误?”)、“预后”(例如,“给定特定输入,如饮食,输出/结果能否被预测?”)或“治疗”(例如,“特定输入,如药物,能否导致所需的输出?”)等信息。此外,可以将患者的电子医疗记录(EMR)视为以前获得的输入和输出的存档。

回到顶部

关键的见解

ins01.gif

与计算机不同,人类的程序在很大程度上是隐藏的。因此,传统医学是“去个性化”的,医生通过将患者的表型(症状)与大量个体的经验观察结果进行比较来提供治疗。有限的定制是基于粗糙的职业,如“种族”。这一切都随着2000年初人类基因组测序的进行而改变,随后小型台式测序仪的成本从数亿美元降到了1000美元。能够廉价地读取每个人的程序,意味着个性化医疗的巨大前景,即根据症状和患者独特的DNA程序进行治疗。

我们用一个经典的例子来阐述这一点:血液稀释剂华法林(Warfarin)被广泛用于预防血栓。剂量是至关重要的;如果剂量过高,病人可能会失血而死,如果剂量过低,则可能无法防止危及生命的血栓。通常,正确的剂量是通过多次访问诊所和定期测试确定的。然而,最近的报告16建议了解病人的基因程序可以帮助确定正确的剂量。我们将这种方法(遗传关联和发现工作流程)概括为三个步骤:

收集样本.收集受影响和“基因匹配”的对照个体样本;然后对DNA进行取样并对变异进行分类;

识别的变化.识别和报告与个体受影响/控制状态共同隔离或相关的变化;而且

跟进研究.通过昂贵的动物模型和临床试验的研究和实验,在遗传基础上跟踪相关性;然后将知识转移到诊所。

即使取得了成功,这种发现方法也涉及到复杂的问题:首先,研究是资源密集型的,需要对有疾病和没有疾病的大量个体进行识别和测序。其次,目前还不清楚如何将研究结果应用于特定的个体,尤其是与调查队列的基因不同的个体。最后,数据重用很困难;从以前的研究中挖掘数据需要大量的计算,并需要非常小心地重用它。我们对比了“发现工作流程”和“个性化医疗”。这是一个医生在治疗个体一个是否可以查询一个数据库,以寻找适合基因变异类似于一个或查询与患者基因相似的一个对这些病人有效的治疗方法和剂量。

计算工具实现个性化医疗的概念正在流行。一些组织提出了专门的癌症基因组数据库,14尽管细节仍在浮出水面。在这里,我们采取更普遍的观点,允许更广泛地获取基因组信息,并使发现和个性化医疗成为可能。

我们从个人基因组学社区隐含的视角转变开始。我们假设个体在出生时就被测序,他们的个人基因组是EMR的一部分,研究人员和医务人员可以查询,而不是根据需要对少数人进行测序。考虑到测序成本下降的速度之快,这种情况是现实的。这种观点的转变使个性化医疗和大规模发现成为可能图1).

在为患者选择华法林剂量时,医疗团队可能会确定一组与患者基因相似且使用华法林方案的个体;查询其基因组和EMRs,分别查询候选基因的遗传变异和华法林剂量;并根据病人的特定基因程序选择适当的剂量。使用表现型作为关键从一个非常大的个人数据库中逻辑选择的能力消除了发现工作流的第一个问题。利用个体特有的基因变异一个作为返回的关键,治疗(对这种变化很有效)解决了第二个问题。最后,如果所附带的软件系统具有良好的抽象,那么第三个问题(重用数据的计算负担)就会大大减轻。这里,我们关注基因组学的关键软件抽象,建议像其他CS领域(如超大规模集成电路/系统),软件抽象将使基因组医学成为可能。

我们用编程的隐喻从基本遗传学开始,然后描述测序的趋势,以及今天如何称呼基因变异,并概述我们对分层构建的巨大基因组数据库的愿景;其核心思想是“证据”和“推断”的分离。然后,我们提出了一种用于指定基因组查询的语言,并通过概述计算机科学其他领域的研究方向来进一步实现这一愿景。

我们将研究范围局限于基因组学,忽略了基因组分析的动态方面(如转录组学、蛋白质组学表达和网络)。基因组信息的分析传统上使用两种互补的范式:首先,在比较基因组学中,不同的物种进行比较,大多数区域是不相似的,而保守区域在功能上是有趣的。67第二种是群体基因组学,在基因组相同的基线假设下,对来自单个群体的基因组进行比较,正是这些变异定义了表型,在功能上也很有趣。我们关注群体基因组学及其在个性化医疗中的应用,不讨论特定的测序技术(如频闪光测序vs.颜色空间编码)。

回到顶部

计算机科学家的遗传学

我们首先为计算机科学家简单介绍遗传学;标准参考文献(如Alberts等。1)提供更多细节。所有的生物都是由细胞组成的,每一个细胞就像一台运行程序的计算机,或者它的DNA。该程序使用来自固定字母表{A c g t}。人类是二倍体;也就是说,每个细胞由两个程序控制,一个遗传自父,一个遗传自母。此外,每个程序被分解成23个称为染色体的“模块”,在每个染色体中都有稀疏分布的小功能块,称为基因。来自父亲和母亲的模块对称为同源染色体,每个人都有一对来自父母的(同源)基因。

细胞的“硬件”包括细胞器和细胞机制中的蛋白质。蛋白质执行特定的细胞功能(如催化代谢反应和传递信号)。该基因包含制造蛋白质的“代码”,每个基因在许多“核糖体”中的一个中执行(类似于CPU)。信息通过“信使”分子(mRNA)从细胞核(被包装的DNA驻留的地方)传递到核糖体,信使分子本质上是编码DNA的副本。核糖体一次“读取”3个碱基(一个密码子)的密码;每个密码子都类似于一个OpCode,指示核糖体将一个特定的氨基酸连接到正在构建的蛋白质序列上。因此,DNA程序提供了制造硬件的指令,这些硬件依次执行所有细胞功能。


基因组学提高效率的关键在于,一个人的遗传记录可以由一个小得多的个体遗传变异列表简明扼要地总结出来。


DNA的变化(突变)可以改变氨基酸,相应的,细胞机制导致不同的表型(输出)。在孟德尔范式中,该基因的两个同源副本各自控制一种表型性状(如凝血能力)。一个基因的突变可能会强烈地影响表型(显性),或完全不影响表型(隐性突变),或介于两者之间。大多数表型是复杂的,由多个基因的成对副本控制。尽管如此,DNA控制特征,所以即使是最简单的DNA查询也是有用的(比如“与‘正常’个体相比,病人的DNA程序有部分发生了突变吗?”)。

测序技术的进步使得廉价地扫描个人基因程序的突变或变异成为可能。首先,利用物理过程将基因组DNA随机剪切成大小为500bp10000bp的小插入片段。测序机从小片段或长度(reads)中破译DNAl100bp)在插入物的一端或两端。因此,基因组信息表现为a、C、G、T上的一组小串,这些小串从(母本或父本)染色体上的一个随机位置采样。人们很自然地认为,这些碎片将被组装起来,就像一个巨大的拼图。然而,由于人类基因组中有大量重复的部分,这种组装是复杂的,计算成本很高。

映射和变化.另一种方法是将样本基因组(供体/患者基因组)的非重复片段与参考人类基因组进行比对或绘制图谱。目前的参考是从多个个体中采样的每个染色体的单个(单倍体)拷贝。映射涉及在引用上寻找基因组子字符串与查询片段匹配的位置,直到出现少量错误。这些错误可能是排序错误或查询相对于引用的真实变化。映射之所以可行,是因为字符串搜索比组装更容易处理,而且任何一对人类基因组在1000个位置中有一个是相同的。

供体序列相对于参考文献的真实偏差称为变异。最简单的变异是单核苷酸(或单字符)变异(SNV)。回想一下,供体基因组由两个拷贝组成;出现在两个拷贝中的变异称为纯合子,而只出现一个拷贝的变异称为杂合子。这种变异的特定值被称为等位基因;例如,假设个体的同源染色体上的DNA一个与参考文献相比是

...ATG...GAGTA...参考组装
...ACG...GAGTA...母亲的染色体1
...ATG...GAGCA...父亲的染色体

个人一个是双等位基因,或杂合子,在两个SNV位点,具有基因型…C / T...C / T...,而且the genotypes are resolved into two haplotypes ...C...T...,...T...C...

在人群中普遍存在的含有snv的位点将染色体的位置划分为不同的或多态的。因此,这些位点被称为单核苷酸多态性(SNPs)。在发现过程中,遗传学家对人群进行测试,看看变异的发生是否与个体的表型状态相关。

到目前为止,我们已经讨论了一个位置上的一个或少量变化的简单变化。与此相反,遗传学家也研究与参考文献相比,大的基因组片段(1kbp,多达数百万个碱基)被删除、插入、易位、复制或倒置的结构变异。19

回到顶部

测序的趋势

四个技术趋势与基因组软件架构的设计相关:

降低成本.而人类基因组计划(http://www.genome.gov/)耗资1亿美元,在美国,人工重新测序冗余(15倍)覆盖的成本现在不到5000美元,预计将降至1000美元以下。这意味着通用测序可能实现,存档和分析,而不是测序,将主导成本;

短阅读长度.新的测序技术在很大程度上牺牲了长度和序列质量,以实现大规模的并行和高通量。随着“单分子”测序技术的出现,reads可能会变得足够长(~100Kbp)以允许从头组装。尽管如此,原始阅读仍将是一流的实体;

装配成本高,末端配对测序.重复区域覆盖了40%的人类基因组。如果读长小于重复序列的长度,则基因组不能唯一组装。长读或从长克隆末端测序的读(成对的端读)对于重新解析重复和组装序列是必要的。今天,测序reads被映射到一个标准的人类参考,以识别与表型变异相关的变异;而且

计算机系统成本.一些研究1518已经表明现在磁盘存储基因组的成本比测序成本更高(而且下降得更慢)。

我们从对基因组数据的范例查询开始,这些查询说明了基因组分析的困难和对最佳方法缺乏共识。抽象必须足够灵活,以处理各种方法。

回到顶部

变异召唤

基因组学提高效率的关键在于,一个人的遗传记录可以由一个小得多的个体遗传变异列表简明扼要地总结出来。当我们在我们的分层提案中进一步发展这个前提时,我们提供了关于如今如何称呼变体的见解;专家应该跳过这一部分,继续我们的分层建议。我们从在供体基因组中查询snv开始,这是最简单的变异形式:

调用SNVs图2概述了如何称呼突变。考虑参考等位基因C.我们看到捐赠者基因组的两个拷贝G等位基因和一些带有C,表明SNV是杂合子。如果变异是纯合的,那么所有重叠的reads都应该有一个G在这种情况下,即使这个简单的呼叫也会被混淆。一些读数据可能被映射到引用中的错误位置(例如图中最大的捐赠者读数据)。的G / T)突变可能是不正确的,并且不正确的映射读取的对齐可能会呈现许多变化。即使读取的数据被正确映射,测序错误也可能不正确地表现为杂合子突变。

突变调用者使用的统计方法包括读取质量的映射(例如读取可以映射到的基因组中潜在位置的数量)、碱基调用的质量分数,以及该位置读取中的碱基或等位基因的分布。一些突变调用者使用基于周围位置的证据(例如附近的插入/删除事件过多,表明对齐问题)。决策本身可以基于频率论、贝叶斯推理或其他机器学习技术。虽然SNP调用者使用各种推断技术,但都引用相同的证据——一组读取重叠在SNP的位置。

调用结构变化.除了小的核苷酸变化,更大的结构变化,包括大基因组区域的插入、删除和易位,是基因组变异的另一个重要来源。考虑供体基因组缺失的例子图2 b),其中相对于参考文献,一大段DNA被删除。如果供体基因组的两个拷贝都被删除,那么这个删除就是纯合的;否则为杂合缺失。删除可以通过几种技术检测到:

Paired-end映射.对端测序大基因组片段两端的序列(随机从供体基因组中取样)。这些片段的大小经过选择,紧密分布在指定的长度周围l(500)。如果配对读操作最终映射的距离远于l(长度不一致),遗传学家可以推断出供体中相对于参考物的缺失(例如读“a”在图2 b).如果缺失是杂合的,遗传学家会在缺失的断点处看到和谐和不和谐的混合解读。

深度报道.位置的“深度”指的是映射到该位置的读取次数。供体染色体的缺失区域对杂合子缺失的覆盖率约为一半,对纯合子缺失的覆盖率为零。因此,读入“b”图2 b在已删除区域内的地图,但读取“a”和“c”则没有。

单端映射和拆分读取.当读取映射到捐赠者上删除的断点时,它不能映射回引用(图2 b,读“c”)。在“干净”删除的情况下,片段的前缀和后缀可以分别映射;这样的分读指示了删除事件。

杂合性丢失.考虑SNV在供体基因组上的位置。当对多个多态位点取样时,遗传学家会期望得到杂合子和纯合子位点的混合。在缺失时,被取样的单个染色体显示杂合度的丧失。

即使在这四个类别的限制下,软件工具也必须做出一些设计决策,以考虑重复的序列并协调相互冲突的证据。变异推断仍然是一个具有挑战性的研究问题。

回到顶部

分层的基因组学

我们的愿景受到系统和网络类比的启发;例如,互联网利用TCP和IP的关键抽象,通过“沙漏”模型处理了各种各样的新链接技术(从光纤到无线)和应用程序(从电子邮件到社交网络)图3一).

同样,我们建议将基因组处理软件分层为仪器层、压缩层、证据层、推断层和变异层,从而将基因组应用与测序技术隔离开来。这种模块化要求计算机系统放弃通过跨层泄露信息而获得的效率;例如,可以通过考虑使用哪一种测序技术(如Illumina和Life Technologies)来加强生物推断,但模块化是最重要的。

一些初始界面在今天的遗传学家中很流行。现在许多仪器以“fastq”格式产生序列数据。映射读取的输出通常表示为“SAM/BAM”格式,尽管已经提出了其他压缩格式。10在更高的层次上,标准(如变体调用格式,或VCF)被用来描述变体(参见图3一).


GQL还支持多种类型的推断、变化的变量定义和跨仪器类型的证据池。


我们建议在映射工具和应用程序之间进行额外的分层。具体来说,我们的架构将支持查询所需的证据集合(确定性的、大数据移动的、标准化的)与推断(概率性的、相对较小的数据移动的、在技术上很少一致的)分离开来。虽然推断方法差异很大,但推断的证据是相当标准的。为了以灵活、高效的方式收集数据,我们提出了一种基因组查询语言(GQL)。虽然我们在这里没有提到它,但是对变化层的详细说明(参见图3一)也很重要。虽然一个变体的数据格式是使用标准化的,例如VCF,但接口功能不是。

证据层的案子.每个基因组长达几百gb,在世界各地的不同地点生产。实现中概述的愿景图1在每一个开展发现研究或个性化医学分析的地方,个别实验室必须能够处理它们,以揭示变异,并将它们与医学结果/表型联系起来。如下各段所述,显而易见的备选方案是不可行的:

下载原始数据.在今天,通过网络传输1000个基因组中的每个基因组100Gb是不可行的。压缩可以减轻(5倍),但不能完全避免这个问题。为了进行分析,必须在每个研究地点复制大量的计算基础设施。

下载变异信息.或者,基因组存储库可以运行标准的变种调用管道4并以标准格式(如VCF)生成更小的变体列表。不幸的是,变异呼唤是一门不精确的科学;研究人员通常希望使用自己的呼叫者,几乎总是希望看到特定变体的“证据”。因此,发现应用很可能需要原始的基因组证据。相比之下,个性化的基因组学应用程序可能只查询所谓的变异和相关基因型和表型的知识库。然而,即使是医务人员也可能偶尔需要审查关键诊断的原始证据。

我们的方法提供了一个理想的折衷方案,允许通过查询语言根据需要检索变化的证据。查询服务器本身使用一个大型计算(云)资源,并实现一个查询接口,该接口返回支持特定变体的读取子集(证据)。最近的一些方法确实暗示了这样的证据层,包括SRA和Samtools,但在有限的情况下,主要用于SNV/SNP调用。基因组分析工具包(http://www.broadinstitute.org/gatk/)提供了一个程序性的基因组分析框架,内置并行支持。然而,我们的方法gqlql更进一步,允许声明式查询具有假定结构变化的间隔(例如具有支持删除的不同读取)或复制数字变化。GQL还支持多种类型的推断、变化的变量定义和跨仪器类型的证据池。

考虑一下这个复杂的生物学问题:找出某个生物网络中所有破坏基因的缺失,以及这些缺失在自然种群中的频率。对于任何统计推断算法,证据将由满足某些属性的映射读取组成,包括:长度不一致的读取;覆盖深度减少的阅读;读取时一端未映射。证据层支持查询来获取这些读取,并提供以下好处:

替代形式的证据.这种分离允许推理层设计人员开始考虑替代形式的证据,以提高查询的置信度(例如映射到删除断点的分段端读取);

.证据层可能是一个数据瓶颈,因为它涉及到对大量基因组读取集的筛选。相比之下,推断层可能需要大量计算,但通常只处理少量数据(由证据层过滤)。证据层可以在云中实现,而推理层既可以在云中实现,也可以在客户端工作站上实现;而且

移动的目标.标准化的证据层为供应商提供了时间来创建快速、可伸缩的实现;相比之下,现在的推理层是一个移动目标。

在这里,我们通过描述GQL进一步发展了这个直观的想法,它正在被开发以支持证据层:

回到顶部

通过GQL查询基因组

我们希望开发一种完整(能够处理所有证据级查询)、高效、易于表达的查询语言,并使用标准的输入/输出。理想情况下,该语言将允许从一组读取(我们称之为reads)中进行选择,并以标准格式(如BAM)输出读取的子集。GQL使用一种标准的类似sql的语法,这种语法易于使用,并且大多数程序员都很熟悉。然而,标准的关系数据库并不能很好地工作。

GQL包括两种基本的关系类型:映射到人类基因组的Reads通常表示为BAM文件,以及表示基因组“有趣”(功能)区域的间隔表。虽然简单的选择查询与关系语言中完全相同(在映射对相距很远的情况下从读取中进行选择),但许多有用的查询需要使用区间相交来连接关系,而不是将相等作为连接操作符;例如,一个遗传学家可能想要加入一个由READS组成的关系,这些READS映射到基因外显子,基因区域翻译成蛋白质,但配对的两端相隔很远,表明一个删除的外显子(参见图4).

GQL定义了一个特殊的MapJoin操作符来实现这一点,一些较新的测序技术允许从相同的物理克隆生成多个读取。虽然这里没有明确讨论,但这种关系可以扩展到这种情况。我们还发现,使用第三个称为“工程区间”的运算符非常有用,它可以计算包含多个较小区间的合并表示的最大连续区间;中概述了使用这些操作的示例查询图4

示例查询.GQL基于一个基因组查询代数,在这里,我们将讨论它的表达能力的几个示例。在一篇相关的技术论文(将在其他地方发表)中,我们展示了GQL的表达能力,它通过前面讨论的关系捕获了一阶逻辑语言,以及聚合函数的签名。

特定位置(如SNV)的基因型是什么?

查询.通过三重<'chr', 'beg', 'end'>定义一个区间,表示特定染色体上的开始和结束坐标。设感兴趣的SNV位于点区间a ()。基因型的证据是由该位置的reads比对提供的;我们既可以查询映射读取,也可以查询对齐本身,它们通常存储为映射读取属性(例如R.ALIGNSTR)。因此

ins02.gif

在数据集中的一组连锁基因座中,什么是二倍体单倍型(阶段基因型)?

查询.这个查询比第一个更具有挑战性。组装单倍型需要一组读数据,每个读数据(可能还有它们的对端读数据)连接至少两个多态位点。让属性R.CloneId表示克隆标识符,以便成对端读取r1r2来自同一克隆的满足r1.CloneId =r2.CloneId。同时,让关系年代表示点间隔的集合,每个变种位点各有一个。

  1. 找到一个映射到位点的读取子集,以及读取或它们的成对末端映射到的站点的数量(称之为countc

ins03.gif

  1. 返回ID计数为2的读取次数为S

ins04.gif

哪些基因组位点受拷贝数变异(CNVs)的影响?

查询.如果捐赠者读取到一个地区的映射超过某个阈值T那么推断可能是该区域在供体基因组中被复制了。这种CNVs被认为是许多疾病表型的重要变异。为了收集证据,遗传学家会找出所有读图数超过阈值的间隔t.让G.loc表示一个特定的染色体和位置。

  1. 计算每个位置映射到该位置的读取次数

ins05.gif

  1. 返回所有读计数超过阈值的“合并区域”t

ins06.gif

确定供体基因组中有大缺失的所有区域

查询.如前所述,删除的证据有几个来源。假设用户喜欢不一致的对端映射。例如,长度为500的克隆的对端读取在参考基因组上应该相隔500bp。相反,如果两端映射的距离不一致(例如l除了对一些l> > 500年l10000),他们支持在捐赠者基因组中删除的情况。目标是用至少识别所有区域t不符paired-end写道:

  1. 使用一个连接,其中每个记录都包含读取的映射位置,以及它的对端。

ins07.gif

  1. 选择包含不同读取的记录。

ins08.gif

  1. 选择至少包含时间的间隔t有差异的。

ins09.gif

以人群为基础的查询.查询基因组的真正力量来自于查询种群的能力。事实上,现有的工具(如Samtools)支持从与多态位点相对应的特定位置的多个个体中提取读取的能力。GQL将基因组查询的全部功能扩展到查询种群。在华法林的例子中,目的是在使用华法林方案的个体中查询华法林剂量和候选基因的遗传变异(通过发现工作流程确定)。这就提出了如下的问题:“报告华法林剂量和个体的基因组区间和reads,使映射的reads拷贝数至少是区间内预期覆盖率的两倍。”

该查询类似于单个个体的查询,但通过与种群的“连接”重复P,使用

ins10.gif

使用以前的参数,GQL可以用来计算读取深度并报告高cnv区域。类似的想法也适用于个性化工作流,其中遗传学家可能对具有与特定查询个体相似的复制号的患者感兴趣。

没有精确的个体推理的群体推理.查询群体的能力有一个重要的好处:在低覆盖率测序中,单个基因组可能没有多少SNV呼叫的证据。然而,如果人群中大量受影响的个体(如1000人中有800人)都显示出相同的SNV,而对照组没有,那么一种推断工具可以可靠地预测关联,即使个体的呼叫不可靠。虽然需要做更多的工作来演示组推理的好处,但关键是GQL为组推理提供了查询支持。

回到顶部

原型实现

我们已经开发了GQL子集的原型实现(参见图5).上传的基因组(BAM格式)可以通过一个简单的文本界面进行查询,该界面允许用户编写GQL查询。这个查询被编译并执行,输出作为一个(较小的)BAM文件返回,这个文件可以通过适当的基因组浏览器(例如jbrowse,http://jbrowse.org/)或下载至客户端作进一步分析。

“基因组查询”的实现有一个定制的解析器,它将GQL转换为中间表示。我们为每个代数操作都包含了定制的过程,并在效率方面做了一些让步,主要是在内存方面。具体来说,GQL使用区间树来实现连接和定制索引(如强度向量),以实现高效查询。

回到顶部

挑战

我们提出了一组基因组层,包括通过GQL检索证据的证据层。这一愿景的成功实现取决于来自计算机科学的新想法:

查询能力(数据库理论).GQL是否足够强大,能够处理实践中需要的所有证据层查询?我们的目标是让证据层在保持性能的同时处理尽可能多的数据密集型计算;如果没有性能目标,任何查询都可以通过将整个基因组传递到推断层来轻松满足。注意,GQL的表达能力与三种关系模式上的一阶逻辑一致R, G, P,聚合函数的签名和按组操作符。然而,用户反馈可能要求GQL开发人员添加扩展,并且,在实现扩展时,必须注意在表达能力与高效评估之间取得平衡。

查询速度(数据库系统).我们设计了相应的代数GQA作为优化和评估查询计划的内部表示;例如,假设对总体的查询自动分解为对个体的查询。考虑一般形式的SELECT FROM MAPJOIN查询RG在哪里b.构造这样一个查询需要两个步骤:

  1. 选择满足约束条件的关系b;而且
  2. 将(删除重复项)项目到属性上。

GQL使用基于位置的索引LTOR,其中LTOR(l)是一个指向第一次读取的指针,它映射到点间隔l.对于每个个体,GQL在内存中保存映射读取的压缩索引。索引可以用于基于特定位置的选择操作(例如读取映射到特定基因的数据)。


查询基因组的真正力量来自于查询种群的能力。


然而,许多查询涉及到扫描整个基因组以获得最大间隔;例如,找到所有映射读取数(高拷贝数)不成比例增长的最大区域。为了有效地实现这些查询,GQL构造了特殊的索引,允许根据用户定义的约束对读取进行过滤。定义一个strength-vector年代对于长度向量的约束G(整个基因组)。任何位置lisin.gifG年代l]给出了该地点证据的强度,并且可以对常见的约束条件进行预计算。为了减少内存,GQL还选择了最小强度切断和维护Ct作为一个有序的间隔序列12,……这样,每个j最大的间隔是否令人满意年代lt对所有lisin.gifj.压缩后的向量减少了对内存和计算的需求,并且可以按需重新计算。

电子病历(信息检索).与每个测序个体相关的表型已经在病人的医疗记录中。eMERGE网络的初步结果表明,对于有限的一组疾病,EMRs可以在合理的误差范围内用于全基因组关联研究中的表型表征。913我们预计,在2009年《医疗信息技术促进经济和临床健康法案》的激励下,到2014年,大多数医疗保健机构将使用emr。17增加对互操作性标准的遵守5以及生物医学自然语言处理的进展12使高效查询成为可能。然而,目前还没有整合基因型和表型数据。GQL对于查询单个基因组和查询跨个体组的多个基因组应该都很有用,但需要与现有的EMR系统集成,以便将表型数据与基因组一起查询。

隐私(计算机安全).基因组是最终唯一的标识符。一旦公众获得了个人的基因组,所有的隐私都将失去,但目前基于《健康信息携带与责任法案》(Health Information Portability and Accountability Act)的监管对此保持沉默。23.11尽管《基因信息非歧视法案》解决了基因信息使用的责任问题8必须修改隐私法,以确保敏感信息只对适当的代理人员开放。要检查给定的研究是否满足特定的隐私定义,需要对生成公开数据的数据操作进行正式的推理,如果没有此类操作的声明性规范(如GQL),这是不可能的。

出处(软件工程).GQL是记录基因组研究结论来源的理想方法。当前的脚本(如GATK)通常由一些代码组成,这些代码对于人类的可读性来说太特别,并且对于自动分析来说,它们所涵盖的各种编程语言的级别太低。相比之下,发布声明式GQL查询集及其结果将显著提高研究声明的清晰度和可重复性。


虽然这项工作是一项挑战,但让基因互动可能就像从批处理转向分时处理一样具有革命性。


来源查询还使科学家能够重用以前发表的计算密集型研究的数据。与直接在原始的输入数据库上运行查询相比,这些科学家更喜欢对之前发表的研究进行自动搜索,其中源查询对应于他们自己查询所需的计算(部分)。起源查询的结果可以直接导入,并作为新研究查询的部分结果,跳过重新计算。在关系数据库实践中,此场景对应于使用视图重写查询。

扩展(概率推理).如果有大量的基因组,学习疾病和变异之间的相关性可以以不同的方式处理。对于这样一个发现问题,准确地评估个体变异可能不那么关键,因为错误的变异不太可能发生在一个随机选择的大群体中。更一般地说,其他推断技术是否大规模地利用数据的存在?例如,谷歌利用大数据集合来查找常见的拼写错误。需要注意的是,准确地筛选个体变异对于个性化医疗仍然是必要的。

众包(数据挖掘).众包或许可以解决一些困难的挑战,比如癌症,14但是,查询系统首先必须具有允许团队一致处理问题的机制。想象一下,一群有才华的高中理科生正在寻找一种疾病的病例和对照的基因关联。一种可能有用的GQL机制是选择一个随机子集的病例和对照组,尽管它们在基因上是匹配的(产生于单一的混合种群)。然后,研究人员可以用一小部分网络带宽查询100个随机个体的子集,同时仍然为检测关联提供类似的统计能力。

降低成本(计算机系统).个性化医疗必须商品化才能成功,因此需要计算机系统研究;例如,由于大多数基因组是只读的,有没有一些方法来利用固态磁盘?云和工作站之间的高效分解是减少进出云的数据流量的关键。虽然基因组学一直被昂贵的并行计算机所主导,但采用基因组软件来利用今天廉价的多核cpu的并行性是有经济意义的。

回到顶部

结论

基因组学正从稀缺(少数基因组覆盖不完善)的时代向丰富(覆盖高覆盖率的通用测序和需要时廉价的重新测序)迈进。这种转变要求遗传学家和计算机科学家都重新思考基因组处理,从支持少数科学家的特殊工具到支持整个医学世界的商品软件。计算机系统的历史告诉我们,当系统从稀缺走向丰富时,模块化是至关重要的;专用软件必须由一组具有良好定义的接口的层来替代。从特定于机器的格式(如Illumina)到标准(如BAM),从特定于供应商的变体格式到VCF,这些趋势已经得到了业界的认可。千人基因组计划(http://www.1000genomes.org/)获得了发展势头,现在有大量的序列可以访问。然而,在没有强大接口功能的情况下定义数据格式方面取得了很大进展;使用Internet的类比,就好像TCP包格式是在没有套接字接口的情况下定义的。

我们建议超越当前行业标准中隐含的分层,实现个性化医疗和发现。我们提倡将证据与推断分离个体差异与群体差异分离,比如图3一.我们通过GQL在证据层和推理层之间提出了一个特定的接口。虽然GQL基于使用虚拟间隔关系的关系模型,但除了标准的关系优化外,还需要进一步的开发,以允许GQL扩展到大基因组和大种群。

在这里,我们描述了从推断中分离证据的几个好处;例如,由GQL访问的基因组库提供了跨研究重用基因组数据的能力,逻辑地组合病例对照队列,并在不需要特别编程的情况下快速更改查询。当对大种群应用群体推理时,GQL还提供了降低个体推理质量的能力。我们还描述了使用压缩强度指数将GQL扩展到种群的简单思想,以及在云中进行证据层处理的简单思想。

我们强调,GQL和证据层只是我们捕获基因组学抽象的初步尝试。我们希望促进计算机科学家和生物学家之间更广泛的对话,为基因组学的医学应用梳理出正确的接口和层。除了抽象之外,还有很多工作要完成,包括更好的大规模推断、提高效率的系统优化、使医疗记录计算机可读的信息检索,以及安全机制。虽然这项工作是一项挑战,但让基因互动可能就像从批处理转向分时处理一样具有革命性。此外,计算机科学家只是偶尔有机会在能够改变世界的大型系统(如互联网或Unix)上工作。

回到顶部

致谢

这项工作的部分资金由美国国立卫生研究院赞助的iDASH项目(赠款U54 HL108460), NIH 5R01-HG004962,以及克里斯托斯·科扎尼提斯获得的Calit2战略研究机会奖学金。我们感谢Rajesh Gupta、Vish Krishnan、Ramesh Rao和Larry Smarr的有益讨论和支持。

回到顶部

参考文献

1.albert, B.等人。《细胞分子生物学.Garland Science,纽约,2007。

2.安娜斯,G.J. HIPAA条例:医疗记录隐私的新时代?《新英格兰医学杂志, 15(2003年4月),14861490。

3.Benitez, K.和Malin, B.评估与HIPAA隐私规则有关的再识别风险。美国医学信息协会杂志17, 2(2010年3月),169177。

4.De Pristo, M.A.等人。利用下一代dna测序数据进行变异发现和基因分型的框架。自然遗传学43, 5(2011年5月),491498。

5.R.H. Dolin和L. Alschuler正在研究Health Level 7中的语义互操作性。美国医学信息协会杂志, 1(2011年1月),99103。

6.大卫·豪斯勒。29日出版的《自然·生物技术》上, 3(2011年3月),243243。

7.Haussler D.等。基因组10K:获得10000种脊椎动物的洞基因组序列的建议。遗传杂志, 6(2009年11月),659674。

8.Hudson, k.l., Holohan, m.k.和Collins, F.S.与时俱进:《2008年基因信息非歧视法案》。新英格兰医学杂志, 25(2008年6月),26612663。

9.Kho, A.N.等人。基因研究的电子病历科学转化医学, 79(2011年4月)。

10.Kozanitis, C., Saunders, C., Kruglyak, S., Bafna, V.和Varghese, G.使用SlimGene压缩基因组序列片段。计算生物学杂志, 3(2011年3月),401413。

11.Malin, B., Benitez, K., and Masys, D.:通过HIPAA隐私规则共享人口统计数据的统计标准。美国医学信息协会杂志, 1(2011年1月),310。

12.Nadkarni, pm, Ohno-Machado, L.和Chapman, W.W.自然语言处理:介绍。美国医学信息协会杂志, 5(2011年9月),544551。

13.Pathak, J.等。将临床表型数据元素映射到标准化元数据存储库和受控术语:eMERGE网络经验。美国医学信息协会杂志, 4(2011年7月),376386。

14.计算机科学家可能有办法帮助治愈癌症。纽约时报(2011年12月5日)。

15.计算机会使基因组学崩溃吗?科学331, 6018(2011年2月),666668。

16.施瓦茨,U.I.等人。抗凝初期华法林反应的遗传决定因素新英格兰医学杂志, 10(2008年3月),9991008。

17.Stark, P.国会对HITECH法案的意图。美国管理关怀杂志, 12(2010年12月),2428。

18.斯坦,L.D.:基因组信息学中的云计算案例。基因组生物学11, 5(2010年5月),207214。

19.E. Tuzun等。人类基因组的精细尺度结构变异。自然遗传学37, 7(2005年7月),727732。

回到顶部

作者

Vineet Bafnavbafna@cs.ucsd.edu)是加州大学圣地亚哥分校计算机科学与工程系的教授。

光照山河Deutschabdeutsch@ucsd.edu)是加州大学圣地亚哥分校计算机科学与工程系的副教授。

安德鲁却aheiberg@eng.ucsd.edu)是美国加州大学圣地亚哥分校计算机科学与工程系的硕士生。

克里斯托Kozanitisckozanit@eng.ucsd.edu)是加州大学圣地亚哥分校计算机科学与工程系的博士生。

马里兰州Lucila Ohno-Machadomachado@ucsd.edu)现任加州大学圣地亚哥分校医学院资讯及科技副院长,生物医学资讯部创始主任及医学教授。

乔治Varghesegvarghese@ucsd.edu)在微软研究院工作,从加州大学圣地亚哥分校计算机科学系休假。

回到顶部

数据

F1图1。通用测序、发现和个性化医疗。

F2图2。供体变异的证据。

F3图3。基因组处理软件层。

F4图4。MapJoin和ProjectInterval操作。

F5图5。GQL的原型实现,使用开源工具jbrowse进行可视化;包括支持删除的不一致的对端读取。

回到顶部


©2013 0001 - 0782/13/01 ACM

如果您不是为了盈利或商业利益而制作或分发本作品的部分或全部,并在第一页注明本通知和完整引用,则允许您免费制作本作品的部分或全部数字或纸质副本,供个人或课堂使用。本作品的组成部分必须由ACM以外的其他人享有版权。信用文摘是允许的。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org或传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2013 ACM有限公司


没有发现记录

201301基因组学文摘CACMVimeo

" >
Baidu
map