专栏名称: BioArt
BioArt致力于分享生命科学领域科研学术背后鲜为人知的故事,及时报道和评论生命科学领域有料的动态,BioArt也是一个生命科学领域“百花齐放,百家争鸣”的舞台,循“自由之思想”与“独立之精神”为往圣继绝学。
目录
今天看啥  ›  专栏  ›  BioArt

Nat Commun丨邵斌课题组实现首个生成式DNA大语言模型

BioArt  · 公众号  · 生物  · 2024-11-04 09:00

文章预览

以GPT模型为代表的生成式语言模型通过对海量文本的学习,具备了生成和理解复杂语言的能力,深刻的变革了自然语言处理领域。人类的语言和生命的语言DNA本质上都是序列信息。基于这种相似性,语言模型也在基因组学领域得到一系列应用,比如进行功能基因标注或调控片段预测等。但已有的DNA语言模型多是采用BERT架构,利用类似于完形填空的方式进行训练,虽然能够理解DNA序列,但难以像GPT模型那样创造性地生成全新序列。同时这些模型的输入窗口较为狭窄,一次只能处理较短的DNA片段,难以对完整基因组进行分析。 2024年10月30日,北京理工大学 邵斌 教授课题组在 Nature Communications 杂志上发表了题为: A long-context language model for deciphering and generating bacteriophage genomes  的最新研究成果, 实现了首个生成式DNA大语言模型,megaDNA。 该模型利用无标 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览