生成超10万bp的DNA序列，北理工邵斌团队生成式DNA大语言模型，登Nature子刊

ScienceAI · 公众号 · · 2024-11-16 13:08

文章预览

将 ScienceAI 设为星标第一时间掌握新鲜的 AI for Science 资讯作者 | 邵斌团队编辑 | ScienceAI 2024 年 10 月 30 日，北京理工大学邵斌教授团队在《 Nature Communications 》杂志上发表了题为：《 A long-context language model for deciphering and generating bacteriophage genomes 》的最新研究成果，实现了首个生成式 DNA 大语言模型，megaDNA。该模型利用无标注的噬菌体（感染细菌的病毒）基因组数据进行预训练，不仅能准确预测噬菌体的必需基因，更能够生成长达 10 万碱基对的崭新基因组片段，即像写作自然语言一样生成 DNA 序列。另外，模型在学习过程中获得的嵌入层信息（embedding），还能应用于蛋白质功能预测、基因调控研究，以及无标注 DNA 片段分类等多个下游任务。文章链接： https://www.nature.com/articles/s41467-024-53759-4 背景介绍什么是「生成式」语言模型？简单来说 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博