专栏名称: 生信宝典
生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程;高通量测序数据分析学习教程;生信软件安装教程。所有内容均为原创分享,致力于从基础学习到提高整个过程。
目录
相关文章推荐
生物制品圈  ·  一文读懂 PCR ... ·  昨天  
BioArt  ·  Nat ... ·  2 天前  
BioArt  ·  Cell Metab | ... ·  2 天前  
今天看啥  ›  专栏  ›  生信宝典

Nature子刊:邵斌团队实现首个生成式DNA大语言模型——破译并生成病毒基因组

生信宝典  · 公众号  · 生物  · 2024-12-09 21:00
    

文章预览

编辑丨王多鱼 排版丨水成文 题图为 邵斌 博士 以 GPT 模型为代表的 生成式语言模型 通过对海量文本的学习,具备了生成和理解复杂语言的能力,深刻的变革了自然语言处理领域。而我们人类的语言和生命的语言DNA本质上都是序列信息。基于这种相似性,语言模型在基因组学领域也有了诸多应用,例如功能基因的标注和调控片段的预测等。但已有的DNA语言模型多采用BERT架构,通过类似完形填空的方式进行训练,尽管可以理解DNA序列,但难以像GPT模型那样创造性地生成全新序列。同时这些模型的输入窗口较为狭窄,一次只能处理较短的DNA片段,难以对完整基因组进行分析。 2024年10月30日,北京理工大学 邵斌 教授课题组在 Nature Communications 期刊发表了题为: A long-context language model for deciphering and generating bacteriophage genomes 的最新研究论文。 该研究实 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览