清华大学龚海鹏团队《自然·通讯》：端到端的单序列蛋白质结构与适应度预测模型SPIRED-Fitnes...

BioMed科技 · 公众号 · 科技媒体 · 2024-09-04 19:20

主要观点总结

清华大学生命科学学院龚海鹏课题组在《Nature Communications》发表文章，介绍了单序列蛋白质结构预测模型SPIRED及其与图神经网络集成的框架SPIRED-Fitness和SPIRED-Stab。SPIRED模型采用创新的网络设计和相对位移损失（RD Loss），提高了计算效率和预测精度。SPIRED-Fitness在一次训练中学习多种蛋白质的突变数据，能快速预测蛋白质适应度和结构。SPIRED-Stab模型能预测蛋白质稳定性变化。这些模型具有高效、高精度、泛化性强的特点，并在多个数据集上进行了验证。

关键观点总结

关键观点1: 研究背景

近年来，研究人员结合预训练的蛋白质语言模型与结构预测网络，构建了以ESMFold2、OmegaFold为代表的单序列蛋白质结构预测模型，实现了快速且较高精度的结构预测。然而，这些模型存在训练代价大、推理时间长等问题。

关键观点2: 模型亮点

本研究通过创新性的网络与损失函数设计，构建了低训练消耗、高推理速度、高精度的结构预测模型SPIRED。SPIRED采用了顺序排列的折叠单元（Folding Units）和相对位移损失（RD Loss）以提高计算效率。SPIRED与图神经网络集成为端到端的网络框架SPIRED-Fitness，能够快速预测蛋白质适应度及结构。研究还提供了SPIRED-Fitness与SPIRED-Stab网页服务器及相关代码供广大科研工作者免费使用。

关键观点3: 主要实验结果

SPIRED-Fitness在CAEMO与CASP15测试集上的结构预测精度超过了单序列版本的AlphaFold2，并且与OmegaFold的平均TM-score几乎持平。在SCOPe结构分类数据库上，SPIRED的平均TM-score达到0.794，高于ESMFold和OmegaFold。另外，SPIRED的推理速度是它们的5倍。SPIRED-Fitness的训练分为两个阶段，端到端的训练使其适应度预测精度提升了约2%。SPIRED-Fitness还展现出较强的泛化性和对稀疏训练数据的鲁棒性。