文章预览
蛋白语言模型 SaProt SaProt 主讲人 粟锦(西湖大学在校博士生) 时间 2024年11月17日, 周日晚 20:00-21:30 腾讯会议 546-448-347 https://meeting.tencent.com/dm/cRTht2VHYUWG 关键词 蛋白语言模型|Foldseek|蛋白设计 引言 蛋白语言模型(PLMs),如 ESM系列 ,在经过氨基酸序列的无监督训练后,在与蛋白的各种下游任务中取得了优异的表现。 然而,传统PLMs的缺乏对蛋白结构信息的考虑,这表明有进一步改进的潜力。 SaProt 模型引入了“结构感知词汇表”的概念,将残基标记与结构标记相结合。结构标记是通过使用 Foldseek 编码蛋白质的3D结构而得到的。SaProt 是一个大规模通用 PLM ,它在 AFDB 大约4000万个蛋白序列和结构的数据集上进行训练。SaProt模型在10个重要的下游任务中超越了既定的和知名的基线算法,也位居蛋白突变任务 Benchmark 榜单 ProteinGym 的第一名,展示了
………………………………