文章预览
将 ScienceAI 设为 星标 第一时间掌握 新鲜的 AI for Science 资讯 编辑 | ScienceAI 在基因组学研究领域,DNA 序列的解码与预测一直是科学家们面临的核心挑战。随着测序技术的飞速发展,我们能够以前所未有的速度获取海量基因组数据,但如何高效解读这些复杂的遗传信息,仍是一个亟待解决的难题。近年来,大语言模型(LLMs)在自然语言处理领域的成功,为生物序列分析带来了新的契机。 近日,阿里云飞天实验室的 AI for Science 团队提出了一个全新的生成式 DNA 大模型——GENERator。作为一款基于 Transformer 解码器架构打造的基因组基础模型,GENERator 具有以下三大核心优势: 超长 DNA 序列建模 拥有 98k 碱基对(bp)的上下文长度和 12 亿参数,能精准捕捉复杂且连续的基因结构,告别「碎片化」分析。 跨物种的泛化能力 训练数据涵盖了 3860 亿 bp 的真核
………………………………