文章预览
本文转自微信公众号“新智元”,作者:新智元。 编辑:庸庸 乔杨 【导读】 科学家们把Transformer模型应用到蛋白质序列数据中,试图在蛋白质组学领域复制LLM的成功。本篇文章能够带你了解蛋白质语言模型( pLM )的起源、发展,以及那些尚待解决的问题。 「大语言模型」不仅可以用于人类语言,也可以用于蛋白质的「语言」,而且两者之间有很多相似之处。 过去几年,Transformer架构带来了大模型在文本和图像方面的惊人进展,当应用于生命科学领域时,也取得了影响深远的的成果。 大语言模型是如何应用于蛋白质组学的?科学家们又有哪些发现? 蛋白质是一种「语言」 自然语言由单词、短语、句子等不同层次的模块组成,蛋白质的「语言」也是类似的情况。 蛋白质由基序( motif )和结构域(domain)组成,类似于蛋白质世界的「单词」和「
………………………………