文章预览
主讲人 王赢珩,康奈尔大学计算机科学系博士生 时间 2024年12月28日, 周六晚 20:00-22:00 腾讯会议: 836-574-430 https://meeting.tencent.com/dm/Fpb6K6soQ3rn 关键词 蛋白语言模型|LC-PLM 引言 蛋白序列的自监督语言模型在学习高质量表示和生成式药物设计方面取得了巨大成功。大多数蛋白语言模型基于Transformer架构,训练于具有短上下文长度的单个蛋白。 然而, 这些模型无法很好地外推到更长的蛋白和蛋白复合物上 ;同时,它们也未能考虑由生物分子互作(如蛋白-蛋白、分子-复杂生物系统通路的互作)所驱动的潜在生物机制。 本研究提出了一种基于选择性结构化状态空间模型的长上下文蛋白语言模型 LC-PLM , 通过掩码语言建模在氨基酸标记级别学习到高质量的通用蛋白表示 。此外,研究还引入了其图上下文化的模型变体 LC-PLM-G,在蛋白互作图上进行第二阶
………………………………