专栏名称: 生信宝典

生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程；高通量测序数据分析学习教程；生信软件安装教程。所有内容均为原创分享，致力于从基础学习到提高整个过程。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Nature子刊：邵斌团队实现首个生成式DNA大语言模型——破译并生成病毒基因组

生信宝典 · 公众号 · 生物 · 2024-12-09 21:00

文章预览

编辑丨王多鱼排版丨水成文题图为邵斌博士以 GPT 模型为代表的生成式语言模型通过对海量文本的学习，具备了生成和理解复杂语言的能力，深刻的变革了自然语言处理领域。而我们人类的语言和生命的语言DNA本质上都是序列信息。基于这种相似性，语言模型在基因组学领域也有了诸多应用，例如功能基因的标注和调控片段的预测等。但已有的DNA语言模型多采用BERT架构，通过类似完形填空的方式进行训练，尽管可以理解DNA序列，但难以像GPT模型那样创造性地生成全新序列。同时这些模型的输入窗口较为狭窄，一次只能处理较短的DNA片段，难以对完整基因组进行分析。 2024年10月30日，北京理工大学邵斌教授课题组在 Nature Communications 期刊发表了题为： A long-context language model for deciphering and generating bacteriophage genomes 的最新研究论文。该研究实 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博