acm-header
登录

ACM通信

新闻

药物发现与设计的神经网络


连接的神经元在一个简单的图表,插图

图源:Yurchanka Siarhei

药物在现代医学中发挥着核心作用,但将新药物推向市场是一个漫长而昂贵的过程。制药公司正在探索如何利用人工智能(AI)来简化其复杂管道的各个方面。

一个关键的早期步骤是发现和设计具有预期生化效应的新分子,可以调节已知的与疾病相关的过程。为了取得成功,这些分子还必须适合于制造和药物配方,并且具有可接受的低副作用。在早期阶段找到更好的候选人并淘汰失败者,可以使这个过程更快、更便宜。

近年来,学术界和工业界的研究人员一直在设计机器学习工具,既可以通过计算筛选已知化合物的理想性质,也可以提出全新的性质。这些新工具使用了一些技术,这些技术为过去十年的深度学习革命提供了动力。然而,有效地分析化学和生物学倾向于其他架构,如图神经网络,其结构自然地模仿分子。

麻省理工学院(Massachusetts Institute of Technology)的计算机科学家雷吉娜·巴兹莱(Regina Barzilay)多年来一直致力于这一课题,她说:“这确实是一个做很多有趣的新颖计算机科学的机会,因为化学和生物学的背景与语言和成像非常不同。”“这是一个将不断发展的领域,我们将在此过程中看到许多计算机科学的发现。”

回到顶部

高通量筛选

一种成功的药物带来的收入可能是巨大的,特别是对于每年销售额超过10亿美元的“大片”来说。然而,开发一种药物的成本也是巨大的,目前估计为25亿美元或更多。最昂贵的步骤是后期临床试验,但候选药物往往在早期就失败了,例如,如果它们在动物或人类身上被证明无效,或者具有不可接受的副作用。

据估计,每一个最终商业化的候选分子都有大约1万个失败。人工智能能够预测一种药物的特性(期望的和不期望的),足以提高这种几率,这将是非常有利可图的。

长期以来,制药公司一直使用可能包含数百万种化合物的专有文库,对生物化学性质进行自动化实验室筛选,包括已知药物和天然存在的化合物。这些资源被策划以包括不同的分子特征,从而跨越一个大的结构空间。

然而,即使这些巨大的文库也只代表了大约1060种或更多的“小分子”的一小部分,这些“小分子”可以比生物产生的大分子更直接、更便宜地制造和管理。美国能源部太平洋西北国家实验室的计算数据科学家Neeraj Kumar说:“人们必须筛选特定蛋白质目标或基因组的化学空间是指数级的巨大。”


“一个人必须筛选特定蛋白质目标或基因组的化学空间是指数级的巨大。”


用人工智能计算预测化合物的性质可以加速药物发现,理想情况下,还可以加速商业化。更重要的是在可能的分子的巨大宇宙中找到全新的分子。Barzilay说:“你永远不能确定是否有一些非常有趣、非常重要的东西,但你不知道它,因为它不在你现有的库中。”

尽管如此,探索许多可能的结构是令人生畏的。减少搜索负担的一个常见策略是从已知药物的骨架和其他分子开始定义“支架”。适度的化学修饰可以产生更好的候选物质。

一种相关的技术被称为基于片段的采样。例如,在实验室中,研究人员可以在他们的文库中包含小块分子,并搜索它们与目标蛋白质的相互作用。利用人工智能,Barzilay和其他人还采用了这种策略来寻找构建模块,这些模块可以用作构建新化合物的种子。

回到顶部

体系结构

在过去的十年里,神经网络在图像和语言任务中表现出了惊人的多功能性,即使在给予大量标记数据的情况下,几乎没有关于关注哪些相关特征的指导。尽管如此,表示与任务匹配的网络架构会产生很大的不同。例如,对于图像,可以构建卷积神经网络来帮助识别物体,而不考虑它们的位置、大小或方向。

对于分子,图神经网络(GNNs)显示出越来越大的成功。这些系统以节点(对应于原子)和连接节点的边(对应于分子中原子之间的键)表示数据。

其他有前景的深度学习架构包括循环神经网络和图卷积神经网络。

Barzilay说:“有很多制药公司非常成功地使用了这些工具。”Barzilay说,基于她在麻省理工学院的机器学习药物发现和合成联盟的经验,该联盟是制药和生物技术行业与麻省理工学院化学工程、化学和计算机科学系之间的合作。

Kumar说,评估一个分子是否与目标蛋白质结合是“机器学习中的一个分类问题”,会导致二元结合/非结合决策。然而,重要的是,他的团队和其他人将他们的任务描述为一个回归问题,基于实验已知的结合亲和力的结构,量化相互作用强度。

许多其他属性也很重要;例如,在非目标组织中的毒性和其他副作用,以及合成新分子的便利性。此外,诸如溶解度、在货架上和体内的降解寿命以及其他性质等因素都会影响药物的输送能力。“当你设计候选药物时,你有多个属性需要优化,”库马尔说。各种属性可以组合成一个用于训练的奖励函数。

然而,Barzilay说,如何最好地设计算法和制定目标仍然是悬而未决的问题。“你可以用很多不同的方式创造性地思考这个问题。”此外,尽管第一代工具产生了合理的结果,但她说,“现在,人们越来越明白,你需要设计一个新的算法基础。”

Barzilay说,除了决定哪些药物值得进行试验之外,药物的“个性化”还有长期潜力,可以确定对具有特定特征的个人来说什么是最好的。她说:“我认为机器学习在这方面真的很出色。”

回到顶部

机制

许多成功药物的一个生物机制是针对细胞表面的受体蛋白。血液中的药物分子会堵塞它们,抑制它们本应传递给内部细胞机制的信号。靶蛋白和潜在小分子药物之间的关键结合可以在实验室中测量。或者,如果蛋白质的折叠结构是已知的,无论是从实验还是从理论,计算建模都可以评估可能的药物是否能够匹配蛋白质角落和缝隙中的形状和原子吸引力,否则就可以检测信号分子。


“当你设计候选药物时,你有多个属性需要优化。”


最近,人工智能从已知的基因序列预测蛋白质结构的进展极大地推动了这一策略。2020年,alphabet旗下的DeepMind在长期进行的蛋白质结构预测关键评估项目中击败了其他参与者。2022年,该项目使用其更新的基于注意力的转换器AlphaFold 2来预测所有已知蛋白质的结构,并将其公之于众。

就像更多劳动密集型的蛋白质实验结构一样,这些预测为预测小分子如何与它们相互作用提供了坚实的起点。事实上,DeepMind首席执行官德米斯·哈萨比斯已经成立了一家新公司——同构实验室,专门针对药物研发。

“AlphaFold 2无疑正在改变我们一直以来的思维方式,”库马尔说,并补充说蛋白质结构数据库将是一个强大的资源。“这个数据库唯一需要注意的是,我们没有作为培训一部分所需的测量属性。”

先进的药物还包括生物合成的大蛋白质,如抗体。蛋白质之间的相互作用在其他生物过程中也是必不可少的,例如多蛋白质复合物的形成。

蛋白质结构预测的快速进展也正在改变这一领域。例如,华盛顿大学(University of Washington)的大卫·贝克(David Baker)团队已经将一些新方法应用到他们的长期项目中,以设计完全未知的蛋白质以及较小的多肽。

与一些大数据驱动的深度学习成功不同,药物开发也依赖于深刻的科学理解。“你不能去Mechanical Turk或类似的地方。你真的需要做实验,”Barzilay说。“所以通常情况下,在模型中加入某种偏见,一些化学知识,真的很有帮助,”生物学和医学知识也是如此。

研究人员继续将人工智能技术扩展到已经拥有强大专业框架的专业领域。“这已经是科学了,是发明出来的,”Barzilay说。“问题是,‘将这些信息注入模型的最佳方式是什么?我认为,这个问题目前还没有得到解决。”

*进一步的阅读

美国国家普通医学研究所蛋白质结构预测中心;https://predictioncenter.org/

s。a。b。Turzo, e。r。Hantz和s。Lindert。机器学习在计算机辅助药物研发中的应用QRB发现3: e14, 1-16(2022)。https://doi.org/10.1017/qrd.2022.12

SCORR营销,人工智能和区块链如何改变药物发现(2021年),https://www.scorrmarketing.com/resources/ai-blockchain-primer/

美国政府问责局,《医疗保健中的人工智能:机器学习在药物开发中的好处和挑战》(2020年);https://www.gao.gov/products/gao-20-215sp

回到顶部

作者

梦露不他是一位生活在美国马萨诸塞州波士顿的科技作家。


©2023 acm 0001-0782/23/03

本论文部分或全部的电子版或硬拷贝供个人或课堂使用的许可是免费的,前提是副本不是为了盈利或商业利益而制作或分发的,并且副本的第一页上必须有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有署名的摘要。以其他方式复制,重新发布,在服务器上发布,或重新分发到列表,需要事先特定的许可和/或费用。请求发布权限permissions@acm.org或传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2023 ACM, Inc.


没有找到条目

Baidu
map