主要观点总结
上海交通大学联合上海人工智能实验室以及上海科技大学和中科院杭州医学院的合作者,共同开发出一种新的蛋白质序列大语言模型预训练方法PRIME。该方法旨在提高蛋白质突变预测的准确性,特别是在稳定性和活性方面的预测。研究亮点包括不依赖提前的实验数据预测特定蛋白质突变体的性能改进,以及有效预测蛋白质的多种属性等。模型基于温度感知语言模型进行训练,可以更好地捕捉蛋白质序列的温度特征。
关键观点总结
关键观点1: 新型蛋白质语言模型PREIME的开发
该模型能够在不依赖提前实验数据的情况下,预测特定蛋白质突变体的性能改进,并有效预测蛋白质的多种属性。
关键观点2: 模型基于温度感知语言模型进行训练
PRIME的设计使其能够更好地捕捉蛋白质序列的温度特征,这在工业应用和生物实验中具有重要作用。
关键观点3: 研究亮点
研究的主要亮点包括使用大型蛋白质序列数据集进行模型训练,引入温度感知机制以提高模型的预测能力,以及在不熟悉的蛋白质领域也能获取成功设计的新方法等。
关键观点4: 模型的应用和实验验证
研究团队通过实验验证了PRIME模型在预测突变蛋白序列适应性方面的优势,并在实际应用中展示了其有效性和效果。
关键观点5: 小样本学习的挑战和解决方案
在蛋白质工程领域,小样本学习是一个挑战。研究团队通过开发PRIME和FSFP等方法,结合机器学习、实验技术和多模态数据分析等技术突破小样本的限制。
文章预览
作者:李宝珠 编辑:十九 上海交通大学联合上海人工智能实验室,以及上海科技大学和中科院杭州医学院的合作者,共同开发出了一种新的蛋白质序列大语言模型预训练方法 PRIME。 蛋白质不仅是人体生命活动的执行者,同时也在生物医药、食品加工、酿造业、化工业等多领域发挥着重要作用。所以,人们从未停止围绕蛋白质结构、功能等展开研究,为工业应用场景遴选出符合需求、稳定性高的蛋白质。 然而,从生物体中提取的「野生型」蛋白质,在工业环境中发挥作用所需的理化条件(如温度、pH 值)大多与其原生生物环境相去甚远。换言之,这一类蛋白质的稳定性难以适应严酷的工业环境。因此,为了满足不同应用场景的需求, 往往需要通过突变来改善蛋白质的理化特性,从而提高其在极端温度 / pH 值条件下的稳定性,或是增加酶活性及特
………………………………