文章预览
编辑丨王多鱼 排版丨水成文 题图为 邵斌 博士 以 GPT 模型为代表的 生成式语言模型 通过对海量文本的学习,具备了生成和理解复杂语言的能力,深刻的变革了自然语言处理领域。而我们人类的语言和生命的语言DNA本质上都是序列信息。基于这种相似性,语言模型在基因组学领域也有了诸多应用,例如功能基因的标注和调控片段的预测等。但已有的DNA语言模型多采用BERT架构,通过类似完形填空的方式进行训练,尽管可以理解DNA序列,但难以像GPT模型那样创造性地生成全新序列。同时这些模型的输入窗口较为狭窄,一次只能处理较短的DNA片段,难以对完整基因组进行分析。 2024年10月30日,北京理工大学 邵斌 教授课题组在 Nature Communications 期刊发表了题为: A long-context language model for deciphering and generating bacteriophage genomes 的最新研究论文。 该研究实
………………………………