在未来的几十年里,自计算机科学诞生以来一直处于核心地位的硬件-软件范式很可能会受到挑战,或者至少会被一种令人兴奋的新发展所补充:合成生物学。生物细胞将成为现有硬件的替代品,而软件的模拟物将被设计成引导细胞产生有用的人工制品或物质。因此,这种硬件-软件模型将越来越接近于模拟微型(纳米级)机器人,它可以诱导活的有机体,比如在自然界中存在了数十亿年的细菌,来组装微量的化合物。这样一来,科学家们就能够完成今天在很大程度上仍然无法想象的任务,比如清洁环境、制造新药和检测危险化学物质。
计算机科学一直走在科学和工程发展的前沿。我在这里提倡的将帮助我们进入下一个领域。合成生物学的新兴领域[1,3.,4是设计类似计算机的生物机械及其相关软件或湿软件的工程对应体。湿件表明在生物湿实验室中组装所需工件的程序是如何构建的,与用于组装和编程电子元件的干式实验室形成对比。
只有生物学家和计算机科学家充分理解活细胞的动态行为,合成生物学的目标才能实现。一门叫做系统生物学的学科[5),该学科包括合成生物学,致力于理解细胞的动态行为。系统生物学本质上是分析性的,而合成生物学处理的是改变已知细胞行为以实现人类目标的工程问题。
我在这里的目的有两个:敦促计算机科学家密切关注合成生物学和系统生物学的进展,积极参与它们的发展;并强调,如果没有计算机科学家的参与贡献,系统和合成生物学的理想目标将是不可实现的。实现这些目标将为我们的领域开辟鼓舞人心的新前景。
为了说明合成生物学和系统生物学的前景,考虑一个原型实验,它演示了目前在这些新领域的可行性。在一个研究中心的实验室长凳上,放着一个装有一种特殊的无害细菌的培养皿。这道菜散发出淡淡的薄荷香味。一名穿着白大褂的科学家滴入几滴化学物质,薄荷气味很快就被一种强烈的……香蕉(web.mit.edu/newsoffice/2006/igem.html)。
在生物、计算机、电子工程等15个国家的研究生参加的“2006年国际基因工程机器(iGEM)大赛”(parts2.mit.edu/wiki/index.php/Main_Page)上也出现了类似的情况。通过添加特殊成分来改变一种物质的香味,这种看似无害的试验具有巨大的实际意义,最显著的是在环境修复和制药工程方面。想象一下加到菜里的食材含有一种危险的化学物质。该实验允许研究人员通过简单地将其暴露在细菌中,并让人、动物甚至仪器检测产生香味的化学变化来检测这种物质的存在。
这和计算机科学有什么关系?这个问题及其答案是合成生物学的核心。它的目的是通过改变或补充细胞的DNA来改造细胞,使其产生的细胞产物对特定物质敏感,并能指出并最终消除这些物质的存在。例如,合成生物学有可能设计出无害的细菌,能够检测和吸收石油泄漏或分解大气中的二氧化碳。
将合成生物学与计算机科学联系在一起的实体是DNA,它可以被看作是一个程序,在类似计算机的内存中保持静态或休眠状态。只有当它被处理器(相当于解释器和硬件)执行时,它的动态行为才会显现出来。
生物信息学起源于20世纪80年代初,它结合了计算机科学和生物学,主要研究DNA及其产物(如RNA和蛋白质)的静态特性。随着20世纪80年代中期DNA测序的自动化,目前的目标是获得字母sa、C、G的序列,并确定从细菌到人类等所有生物的基本核苷酸的特征。对多种基因组进行测序的项目仍然是艰巨的;最近的一份新闻稿报道说:“个人基因组测序的理论价格刚刚从令人望而却步的2000万美元下降到220万美元左右,我们的目标是进一步降低到1000美元左右,使个性化的预防和治疗成为现实。”[7]。
根据达尔文进化论的原理,生物信息学专家仔细研究了不同物种静态DNA之间的相似性。事实上,迄今为止,几乎所有关于相似性的研究都是在静态水平上完成的,没有过多关注DNA被行动者处理时所引发的动态,如聚合酶和核糖体。这些角色本质上是一种纳米生物机械,它处理DNA以产生蛋白质,而蛋白质是生命的基石。
目前在生物信息学方面的努力还寻求确定蛋白质的结构和功能。大多数研究都集中在确定静态分子的稳定3D形状上,尽管蛋白质分子具有一定程度的灵活性,这与确定分子的功能有关。对静态序列和3D结构的关注仍然是充分合理的,因为如果不彻底研究它们的静态对应物,研究DNA和蛋白质相互作用的动力学几乎是不可能的。
蛋白质的功能是通过描述蛋白质在活细胞中的作用的非正式自然语言句子来指定的。这种描述还必须辅以正式的规范,例如,指出蛋白质在蛋白质相互作用网络中的作用。需要计算机科学家来设计这些规范。
系统生物学研究DNA及其产物之间相互作用的动态特性。即使这个新领域被视为生物信息学的一个分支,它也已经是生物学家、计算机科学家、控制工程师和数学家感兴趣的一个领域。在处理静态DNA及其产物(包括蛋白质序列)时,基本的计算机科学算法是在符号串上操作的。它们在非常长的序列中搜索近似的模式,比较多个序列,并合并重叠的序列。优化是序列的近似模式匹配的目标;该算法旨在将一个序列抽象转换为另一个序列的成本降至最低。
系统生物学的目标是仔细研究细胞行为的动力学。例如,某种蛋白质P(由基因产生G)是用来防止另一种蛋白质的产生P'通过阻断基因的处理G”。计算机科学模拟是在程序执行到某个阶段时阻止程序的某些部分被执行。这种行为类似于Edsger Dijkstra的信号量,用于调节并发程序的动态行为[2]。
系统和合成生物学都需要计算机科学方面的专业知识,而不仅仅是处理序列所需的专业知识。反过来,这些学科将用当今计算机科学的前沿问题挑战计算机科学家,包括如何开发纳米技术硬件、容错电路设计、程序验证、模型检查、从数据合成程序和数据挖掘。
系统生物学研究的是基因间的相互作用,有些甚至涉及到成百上千个基因。当某些相互作用出错时,细胞行为就会发生巨大变化,从而导致癌症无法控制地生长。因此,系统和合成生物学中的计算机算法类似于那些用于查找大型复杂程序中的错误或不正确行为的算法。调试是程序开发中最艰巨的任务之一。尽管如此,计算机科学家已经开发出复杂的工具来方便调试,其中一些工具适用于发现生物网络中的错误配置。
微阵列或基因组芯片是一种硅芯片,已成为系统生物学的常用工具。它包括数以万计的微小孔,每个孔都有多条代表每个基因的DNA材料短链(www.affymetrix.com/index.affx)。每条链都与通过涉及被研究细胞基因的湿实验室实验获得的对应链相匹配。匹配程度是通过与电脑相连的特殊扫描仪来测量的。这些测量估计了一个基因产生的产物的数量。生物学家还可以利用微阵列动态记录基因产物随时间的变化,因为细胞受到一些外部影响(如食物饥饿或药物作用)。
系统和合成生物学中的计算机算法类似于那些用于查找大型复杂程序中的错误或不正确行为的算法。
微阵列也很昂贵,每一个都要花费几百美元,研究单个细胞的基因相互作用可能需要几十甚至几百个。但是,与测序成本一样,微阵列的成本正在下降,微阵列实验产生的数据量是巨大的,可能超过现有DNA数据的大小。尽管微阵列实验的结果是粗糙的,可能包含实验室误差,但它们对数据挖掘专家来说是具有挑战性的问题。
由著名计算机科学家领导的几个研究小组已经投身于涉及计算机科学和系统生物学融合的迷人研究。例如,由Ehud Shapiro领导的Weizmann研究所的一个团队设计了纳米生物处理器,其功能如同有限状态自动机,可以识别所需的DNA序列,并最终提供能够纠正可能导致疾病的细胞行为的药物(www.wisdom.weizmann.ac.il/math/profile/scientists/shapiro-profile.html) [8]。
如前所述,合成生物学是系统生物学中引人注目的前沿成果。其目的是利用细胞(如酵母或细胞)现有的“处理”能力大肠杆菌)执行清洁环境、侦测危险化学品和制造药物等任务。j·克雷格·文特尔(J. Craig Venter)是人类基因组测序的先驱,他的目标是(在湿实验室中)生成非常长的人工合成DNA序列(www.jcvi.org)。人工DNA被设计用来执行重组细胞行为的任务。合成生物学团队中的计算机科学家帮助设计必须插入活细胞的DNA片段,并验证由此产生的遗传网络在某种意义上是稳健的,即工程细胞机制中的微小变化是可以容忍的,不会导致故障。
前面提到的年度iGEM竞赛得到了许多公司的支持,包括微软,它在英国剑桥的研究中心建立了一个系统生物学小组;那里的研究人员探索了米尔纳理论的应用p-用于检查移动硬件属性的计算器,如系统生物学中的手机。在系统生物学中,供应商的技术要确保在特定区域内适当处理给定数量的调用,这是有对应关系的。因此,由剑桥的微软计算机科学家卢卡·卡德利(Luca Cardelli)领导的一个团队,目前正在开发描述细胞行为的形式化语言。卡德利此前从事的研究旨在确保分布式程序的正确性。6]。
即使系统和合成生物学实验看起来很简单,但它们确实是该领域重大进展的早期原型。在计算机科学的帮助下,研究人员和工程师将取得所需的进展,将系统和合成生物学从纯科学转化为工业规模的现实。
1.坎贝尔,点会议报告:合成生物学本科生大会。细胞生物学教育1(2005年春),1923。
2.并行编程控制中一个问题的解决方案。Commun。ACM 8,9(1965年9月),569。
3.加德纳,t.s.,康托,C.R,和柯林斯,J.J.大肠杆菌基因开关的构建。403年自然,6767(2000年1月)。
4.生命:下一代:工程师和生物学家合作创造合成生物系统。科学家18,(2004年10月19日)。
5.系统生物学:简要概述。295年科学,(2002年3月)。
6.菲利普斯,卡德利,L.和卡斯塔尼亚,G.随机pi演算中生物过程的图形表示。计算系统生物学学报LN cs4230(2006年11月),123152年。
©2008 acm 0001-0782/08/0500 $5.00
允许为个人或课堂使用本作品的全部或部分制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。
数字图书馆是由计算机协会出版的。版权所有©2008 ACM, Inc.
没有发现记录