DeepUrfold:一个新的人工智能模型揭示隐藏的蛋白质关系并重新定义折叠空间

2024-10-23 09:01来源:本站编辑

作者:Chinta sidharthan博士,Lily Ramsey, llmo10 21 2024

交付对蛋白质进行分组的方法主要依赖于结构相似性来理解它们的进化、功能和折叠。然而,这种方法往往会忽略远亲蛋白质之间微妙的相似之处。

在最近发表在《自然通讯》上的一项研究中,弗吉尼亚大学的研究人员介绍了一种新的蛋白质关系建模方法,该方法结合了蛋白质的结构、序列和生物物理特性。

这种被称为DeepUrfold的方法表明,蛋白质折叠空间是有限的连续的而不是明确划分的和未发现的以前未知的进化不关系蛋白质之间的关系。

研究:蛋白质结构的深层生成模型揭示了遥远的关系公司内部的人际关系连续的折叠空间。图片来源:unoL/Shutterstock.com

背景

蛋白质的进化是一个复杂的过程,仍在被广泛研究。人们认为,蛋白质从小的肽片段进化到形成更复杂的结构域,其中重组和突变等自然过程起着主要作用。

人工智能的最新进展,包括深度学习模型的使用,为探索蛋白质的折叠空间和绘制不同蛋白质结构如何相互关联提供了新的机会。

研究发现,即使是距离较远的蛋白质也可以共享共同的结构片段。然而,传统的基于结构相似性对蛋白质进行分类的蛋白质结构研究方法往往忽略了远距离蛋白质之间微妙的结构联系。

一个关于研究

目前的研究引入了一种称为DeepUrfold框架的方法,该方法使用先进的机器学习来分析蛋白质的结构、功能和进化历史,以及它们的生物物理特性,以确定蛋白质之间的关系。

研究人员创建了一个蛋白质结构数据集,并训练深度学习模型来预测蛋白质结构。

该数据集是使用Prop3D计算工具包创建的,其中包括来自20个不同蛋白质超家族的蛋白质结构域。数据集的蛋白质结构是用这些结构域创建的,然后用缺失的残基和原子填充。

蛋白质的各种性质,如疏水性、二级结构和溶剂可及性,也被计算在数据集中的蛋白质。通过Prop3D创建的数据集分为三个部分。80%的数据集用于训练深度学习模型,剩下的10%用于验证和测试。

根据二级结构、原子类型和电荷对蛋白质中的每个原子进行分类,并将信息转换为模型可读的格式。然后在网格上以三维形式表示蛋白质。此外,在模型训练过程中,蛋白质结构进行了随机旋转,以避免与蛋白质取向相关的偏差。

然后,研究人员使用了一种称为3D卷积神经网络的深度学习模型,以及一个变分自编码器来模拟蛋白质结构。此外,他们使用过采样和被称为“一类分类器”的模型来解释20个超家族中蛋白质结构的不平衡。

为了评估模型的性能,计算了精确召回率曲线和受试者工作特征曲线下面积。

此外,通过生成排列的蛋白质结构并将其与原始结构进行比较,测试了模型对蛋白质结构的敏感性。这使得研究人员能够评估该模型区分不同蛋白质拓扑结构的能力。

主要发现

该研究表明,DeepUrfold可以检测和分析远亲蛋白质之间的结构相似性,而无需依赖于传统方法,如特定拓扑和排列。这种基于深度学习的框架提供了一种更敏感的方法来理解蛋白质是如何超越氨基酸序列或二级结构的。

DeepUrfold通过创建蛋白质结构的简化版本,有效地比较了蛋白质。该模型随后被用于检测不同家族和超家族蛋白质之间的相似性。该模型不依赖于严格的结构标准,这使得它能够捕捉到超越蛋白质标准等级分类的关系。

此外,深度学习模型使用潜在空间相似性度量将蛋白质根据结构特征分组成社区,研究人员认为这表明了进化联系和相似性。

该研究还表明,以前基于传统分类方法划分为不同组的蛋白质在结构上可能重叠,这表明蛋白质折叠空间更像是一个连续体,而不是不同的类别。

此外,该模型还检测到被称为“展开”的反复出现的结构片段,这些原始结构基序被认为代表了蛋白质拓扑结构的早期构建块。这些折叠可以解释复杂的蛋白质是如何从简单的成分进化而来的,并为不同形状和结构的遥远蛋白质之间的关系提供了见解。

结论

总之,研究结果表明,基于深度学习的模型DeepUrfold可以揭示基于结构、功能和生物物理信息的远距离蛋白质之间的关系。

该研究还检测到在各种蛋白质中重复出现的片段,表明不同的蛋白质家族具有共同的结构,进一步加深了我们对蛋白质进化的理解。

蜕变网声明:未经许可,不得转载。