谷歌:深度学习给蛋白质打上功能标签的功能效应(组图)

与 AlphaFold 不同,这一次 Google 正在探索使用深度学习来标记具有功能的蛋白质。

蛋白质是人体所有细胞和组织的重要组成部分。身体的所有重要组成部分都需要蛋白质的参与。

已知存在数十亿种蛋白质,但其中约三分之一的功能未知。我们迫切需要探索这些未知领域,因为它们与抗菌素耐药性甚至气候变化等重要问题有关。例如,青霉素是蛋白质之间自然反应的产物,植物蛋白可用于减少大气中的二氧化碳。

Google 和欧洲生物信息学研究所最近开发了一种称为 ProtCNN 的技术,该技术使用神经网络可靠地预测蛋白质功能,帮助我们缩小蛋白质宇宙中最后的不可见区域。

Google 表示,这种新方法使我们能够更准确地预测蛋白质功能、突变的功能效应和设计蛋白质,可应用于药物发现、酶设计,甚至了解生命起源。

论文:使用深度学习来注释蛋白质世界

论文链接:

Google 提出的方法可以可靠地预测更多蛋白质的作用,而且它们快速、便宜且易于尝试,并且研究导致主流数据库 Pfam 中注释的蛋白质序列增加了近 10%,超过了过去十年一举增长,预测360种人类蛋白质功能。

Pfam 数据库是蛋白质家族的集合,每个家族都由多个序列比对和隐马尔可夫模型表示。

这些结果表明,深度学习模型将成为未来蛋白质注释工具的核心组成部分。

对于大多数人来说,我们更熟悉的是 DeepMind 之前预测蛋白质结构的算法 AlphaFold 的工作。 AlphaFold 向我们展示了这些神秘的生物机器的形状,新的研究重点关注这些机器的作用和用途。

生物医学是一个极其活跃的科学领域ai遇到未知的图像结构,每天有超过 100,000 条蛋白质序列被添加到全球序列数据库中。但是,除非附有功能注释,否则这些条目对从业者的用途非常有限。虽然努力从文献中提取注释,每年评估超过 60,000 篇论文,但这项任务的耗时性质意味着只有 0.03% 的公开可用蛋白质序列是手动注释的。

直接从氨基酸序列推断蛋白质功能长期以来一直是科学界的研究领域。自 1980 年代以来,已经提出了诸如 BLAST 之类的方法ai遇到未知的图像结构,这些方法依赖于成对序列比较,假设查询蛋白与已经注释的高度相似序列具有相同的功能。后来,引入了基于签名的方法,其中 PROSITE 数据库对具有特定功能的蛋白质中发现的短氨基酸“基序”进行分类。基于签名的方法的一个关键改进是开发了轮廓隐马尔可夫模型 (pHMM)。这些模型将相关蛋白质序列的比对合并为一个模型,该模型为新序列提供可能性分数,描述它们与比对集合的匹配程度。

至关重要的是,HMM 配置文件允许更长的签名和更模糊的匹配,目前用于更新流行的数据库,例如 Interpro 和 Pfam。后来的改进使这些技术更具响应性和计算效率,并且它们作为网络工具的高可用性使从业者能够轻松地将它们集成到他们的工作流程中。

这些计算建模方法对学术界产生了巨大影响。然而,三分之一的细菌蛋白质尚未被注释为功能。原因是当前方法对每个比较序列或模型执行完全独立的比较,因此可能无法充分利用不同功能类共享的特征。

扩展带注释的蛋白质序列集需要远程同源性检测,即对与训练数据相似度低的序列进行准确分类。新研究的结果基准集包含 21,293 个序列。 ProtENN 显着提高了所有类别分类的准确性,包括那些具有远距离测试序列的分类,这是扩大蛋白质域覆盖范围的关键要求。为了解决从多个示例中推断的挑战,作者使用深度模型学习的序列表示来提高性能。

Pfam-seed 模型的性能。

ProtCNN 的架构。中图显示了输入(红色)、嵌入(黄色)和预测(绿色)网络,以及 ResNet 架构(左),而右图显示了通过简单的最近邻方法利用的 ProtCNN 和 ProtREP。在这种表示中,每个序列对应一个点,来自同一家族的序列通常比来自其他家族的序列更接近。

ProtCNN 学习每个序列长度为 1100 的实值向量表示,无论其未对齐长度如何。为了实现高精度,来自每个族的表示必须紧密地聚集在一起,以便不同的族很好地相互分离。为了测试这种学习表示是否可以用于准确分类最小的序列家族,作者构建了一种称为 ProtREP 的新方法。对于 ProtREP,我们计算每个家庭在其训练序列中的平均学习表示,产生一个标记的家庭表示。然后通过在学习的表示空间中找到其最近的标记来对每个保留的测试序列进行分类。在相同的计算成本下,ProtREP 超过了 ProtCNN 在聚类分割上的准确度。

ProtENN 和 TPHMM 的结合提高了远程同源任务的性能。 TPHMM 和 ProtENN 模型的简单组合将错误率降低 38.6%,并将 ProtENN 数据的准确率从 89.0% 提高到 93.3%。

为了探索深度模型对蛋白质序列数据的见解,作者在 Pfam-full 中 80% 的未对齐序列上训练了 ProtCNN,并计算了学习氨基酸表示的相似性矩阵。

结果表明,ProtCNN 学习了一种有意义的蛋白质序列表示,该表示可以泛化到序列空间的未知部分,可用于预测和理解蛋白质序列的属性。另一个挑战是检测蛋白质结构域及其在蛋白质序列中的位置。这个任务类似于图像分割,这是深度学习模型所擅长的。虽然 ProtCNN 是使用域进行训练的,但该研究展示了 ProtCNN 使用简单的滑动窗口方法将完整序列分割成域的能力。

虽然没有使用序列比对,但 ProtCNN 显示出出色的准确性。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论