文章预览
将 ScienceAI 设为 星标 第一时间掌握 新鲜的 AI for Science 资讯 作者 | 邵斌团队 编辑 | ScienceAI 2024 年 10 月 30 日,北京理工大学邵斌教授团队在《 Nature Communications 》杂志上发表了题为:《 A long-context language model for deciphering and generating bacteriophage genomes 》的最新研究成果,实现了首个生成式 DNA 大语言模型,megaDNA。 该模型利用无标注的噬菌体(感染细菌的病毒)基因组数据进行预训练,不仅能准确预测噬菌体的必需基因,更能够生成长达 10 万碱基对的崭新基因组片段,即像写作自然语言一样生成 DNA 序列。 另外,模型在学习过程中获得的嵌入层信息(embedding),还能应用于蛋白质功能预测、基因调控研究,以及无标注 DNA 片段分类等多个下游任务。 文章链接: https://www.nature.com/articles/s41467-024-53759-4 背景介绍 什么是「生成式」语言模型?简单来说
………………………………