我国自研深度学习蛋白质折叠预测平台传来好消息好消息好消息

在过去的半个世纪里,人类已经分析了超过 50,000 种人类蛋白质的结构。人类蛋白质组中大约 17% 的氨基酸具有结构信息,而 AlphaFold2 预测的结构使这个数字从 17% 增加到 58%。它给生命科学各个分支带来的革命将在未来几年到十年内逐渐出现。

蛋白质结构预测是生物学的重要“圣杯”,也是人工智能和生命科学领域最热门的研究之一。

近日,我国自主研发的深度学习蛋白质折叠预测平台TRFold传来喜讯。基于2020年第十四届国际蛋白质结构预测大赛(CASP14)蛋白质测试集)”(AlphaFold2),世界排名第二,这是目前所有公开的蛋白质结构预测模型中最好的结果)中国和我国在计算生物学领域的成绩居世界第一。

从 2018 年 AlphaFold 首次代表人工智能,到 AlphaFold2 使用机器学习方法实现与结构生物学实验相媲美的精密测量精度,计算生物学为蛋白质预测这个百年难题带来了颠覆性的解决方案。人工智能会给生命科学领域带来怎样的变化?蛋白质结构预测这个生物学终极未解决的问题之一,会被人工智能彻底解决吗?

深度学习可广泛应用于计算生物学

蛋白质结构预测是生命科学中一个长期存在且引人入胜的问题,众所周知,它是困难、昂贵且进展有限的。但这个人们认为需要一个世纪才能慢慢探索的问题,在近几年取得了重大突破:在 2020 年的 CASP14 比赛中,谷歌旗下 DeepMind 开发的 AlphaFold2 总分(GDT)达到了 92.4 /100,也就是说计算生物学几乎已经获得了实验室方法精度的蛋白质结构预测结果。

这一里程碑事件让结构生物学家感慨万千。用价值1000万美元的电子显微镜经过多年的努力,Alphafold2一下子算出来了。“在我看来,这是人工智能对科学领域的最大贡献,也是21世纪人类取得的最重要的科学突破之一。” 生物物理学家、西湖大学校长施一公称赞他。

为什么要预测蛋白质结构?

天让蛋白质折叠项目负责人缪洪江向科技日报记者解释说,“蛋白质结构的研究有助于了解蛋白质的作用,了解蛋白质如何发挥生物学功能,了解蛋白质的相互作用。介于蛋白质和非蛋白质之间。医学和药学非常重要。

观察蛋白质结构的传统方法有核磁共振、X射线和低温电子显微镜三种,但这些方法往往需要大量的反复试验和昂贵的设备,而且对每种结构的研究都需要花费大量时间。年。而应用于蛋白质结构预测的人工智能的最新成果,称为 AlphaFold2ai遇到未知的图像结构,可以在几天甚至几分钟内以高置信度预测蛋白质结构,而以前需要几十年才能获得。

“一开始大家都在开玩笑ai遇到未知的图像结构,说Deepmind是不是通过某种手段窃取了真实的实验结果,直到大家看到了文章和开源代码,才敢相信这件事发生了。” 苗洪江笑着说,这一面证明了AlphaFold2预测结果的震撼,“这为人工智能在计算生物学中的广泛应用打开了大门,也让整个领域的人看到了深度学习可以广泛应用于“这个领域。这个真正的双盲实验的结果就是证明。”

AI预测结果堪比实验室水平

图片[1]-我国自研深度学习蛋白质折叠预测平台传来好消息好消息好消息-老王博客

1994年,美国科学家约翰·莫尔特发起了国际蛋白质结构预测大赛,每两年举办一次。比赛旨在吸引计算机科学和生物物理学等不同领域的专家参与蛋白质的三维结构。预测这个极具挑战性的生物信息学问题。2018年,人工智能正式参与蛋白质三维结构预测,AlphaFold首次大显身手,在98支参赛队伍中排名第一。两年后,AlphaFold2 带来了真正的突破,使用机器学习的方法来预测几乎所有蛋白质的正确结构,

事实上,在过去的半个世纪里,人类已经分析了超过 50,000 种人类蛋白质的结构。人类蛋白质组中大约17%的氨基酸有结构信息,而AlphaFold2预测的结构把这个数字从17%增加到58%,因为没有固定结构的氨基酸比例很大,58%的结构预测接近极限。它给生命科学各个分支带来的革命将在未来几年到十年内逐渐出现。

石一公在接受媒体采访时提到,人类蛋白质组中可以预测的单个蛋白质的空间三维结构已经基本被AlphaFold2预测了。总体而言,预测结果可信、准确。对于结构生物学来说,这是一个改变游戏规则的突破。一些以前在人类身上没有解决的结构,基本上已经被预测出来了。

对于生物化学、细胞生物学、遗传发育、神经生物学、微生物学、病理药理学等一大批生命学科和研究领域,这将大大提高人们对生命过程的认识。例如,遗传学家可能积累了大量数据,但在不了解蛋白质结构的情况下,就不可能研究突变对蛋白质功能的影响。现在,AlphaFold2的结构预测,让我们可以看到人类遗传病中每个突变在相关蛋白结构中的具体位置,进而推测该蛋白的功能是如何受到影响的。

再比如,DeepMind 预测的蛋白质结构包括大量结构未知的药物靶蛋白,包括许多 G 蛋白偶联受体和关键酶,预测的结构足够准确。这对制药界非常重要,它为可靠的药物设计和药物优化提供了重要基础。

单个蛋白质结构预测只是起点

今年 7 月,DeepMind 发布了 AlphaFold2 的源代码,并在《自然》上发表了一篇论文,解释了 AlphaFold2 的技术细节。

“这次开源在生物学界掀起了一股巨浪,这意味着生物学家终于摆脱了先进设备的束缚——以前这些昂贵的先进设备只能由资金雄厚的大学或研究机构部署,从此,小团队或个人研究人员也有可能参与蛋白质研究。” 天扬创始人、原上海交通大学计算机系副教授薛桂荣说。

苗洪江认为,目前的单一蛋白质结构预测只是一个起点,还有一系列更精准的侧链优化、蛋白质动态分析、蛋白质与其配体(如小分子、DNA、RNA、多肽、蛋白质等)问题还没有解决,接下来的工作将集中在利用当前蛋白质组范围内的协同进化分析来建立蛋白质和蛋白质之间的精确联系。

算法模型才刚刚开始,往前走还很艰难。薛桂荣坦言:“算力是一个很大的制约因素。比如AlphaFold2做了很多数据蒸馏工作,他们的算法模型是基于30%的真实数据和70%的真实数据。提炼出来的数据是一起训练的,背后有着巨大的计算能力。”

足够的计算能力可以使蛋白质结构的预测从单一结构到相互作用,从配对研究到大规模,从微观结构到宏观系统。“生物界有很多蛋白质结构,比如基因测序大概测量了数十亿个。但我们只知道序列,不知道结构,这是信息缺失的大问题。” 薛桂荣说,“蛋白质通常以复合物的形式成对或成群地承担生命所需的各种功能。但是,许多蛋白质复合物的结构仍然是一个谜,蛋白质之间的相互作用尚未确定。我们需要足够的计算能力支持整个系统进行蛋白质结构预测、蛋白质设计、蛋白质相互作用研究和药物开发。

同时,在数据源和应用方面,也需要药厂与医院之间的协同联动。“未来,更多的药企、机构、人工智能公司将携手合作,把这个行业做大,现在只是开始。” 薛桂荣说道。

记者 崔爽

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论