专栏名称: BioMed科技
关注生物、医药前沿研究进展!
今天看啥  ›  专栏  ›  BioMed科技

清华大学龚海鹏团队《自然·通讯》:端到端的单序列蛋白质结构与适应度预测模型SPIRED-Fitness

BioMed科技  · 公众号  · 科技媒体  · 2024-09-04 19:20

主要观点总结

清华大学生命科学学院龚海鹏课题组在《Nature Communications》发表文章,介绍了单序列蛋白质结构预测模型SPIRED及其与图神经网络集成的框架SPIRED-Fitness和SPIRED-Stab。SPIRED模型采用创新的网络设计和相对位移损失(RD Loss),提高了计算效率和预测精度。SPIRED-Fitness在一次训练中学习多种蛋白质的突变数据,能快速预测蛋白质适应度和结构。SPIRED-Stab模型能预测蛋白质稳定性变化。这些模型具有高效、高精度、泛化性强的特点,并在多个数据集上进行了验证。

关键观点总结

关键观点1: 研究背景

近年来,研究人员结合预训练的蛋白质语言模型与结构预测网络,构建了以ESMFold2、OmegaFold为代表的单序列蛋白质结构预测模型,实现了快速且较高精度的结构预测。然而,这些模型存在训练代价大、推理时间长等问题。

关键观点2: 模型亮点

本研究通过创新性的网络与损失函数设计,构建了低训练消耗、高推理速度、高精度的结构预测模型SPIRED。SPIRED采用了顺序排列的折叠单元(Folding Units)和相对位移损失(RD Loss)以提高计算效率。SPIRED与图神经网络集成为端到端的网络框架SPIRED-Fitness,能够快速预测蛋白质适应度及结构。研究还提供了SPIRED-Fitness与SPIRED-Stab网页服务器及相关代码供广大科研工作者免费使用。

关键观点3: 主要实验结果

SPIRED-Fitness在CAEMO与CASP15测试集上的结构预测精度超过了单序列版本的AlphaFold2,并且与OmegaFold的平均TM-score几乎持平。在SCOPe结构分类数据库上,SPIRED的平均TM-score达到0.794,高于ESMFold和OmegaFold。另外,SPIRED的推理速度是它们的5倍。SPIRED-Fitness的训练分为两个阶段,端到端的训练使其适应度预测精度提升了约2%。SPIRED-Fitness还展现出较强的泛化性和对稀疏训练数据的鲁棒性。

关键观点4: 总结与讨论

该研究通过创新性的网络与损失函数设计,构建了高效、精确的蛋白质结构预测模型SPIRED及其相关框架。这些模型在多个数据集上表现出优异的性能,并且具有快速的推理速度和较强的泛化性。这些特点使得它们在蛋白质功能预测和蛋白质设计等领域具有广泛的应用潜力。


文章预览

2024年8月27日, 清华大学生命科学学院 龚海鹏 课题组 在《 Nature Communications 》杂志发表了题为“An end-to-end framework for the prediction of protein structure and fitness from single sequence”的文章。 该研究提出了单序列蛋白质结构预测模型SPIRED,在 CAMEO /CASP15 测试集上与 OmegaFold 精度相当, 在 SCOPe结构分类数据库上的预测精度超过了ESMFold。并且,SPIRED的推理速度大约是它们的 5 倍,训练时间消耗仅为它们的十分之一。 通过将SPIRED与图神经网络集成为一个端到端的网络框架SPIRED-Fitness,能够快速预测蛋白质适应度以及结构。在ProteinGym数据集的零样本(zero-shot)与有监督(supervised)测试方式上, SPIRED-Fitness的预测精度超过了绝大部分的单序列模型 ,接近最先进的基于MSA的模型。此外,以SPIRED-Fitness的参数为起点训练得到的 SPIRED-Stab模型,在预测突变对蛋白质稳定性 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览