文章预览
众所周知,生命的基本指令都包含在所有生物体的 DNA序列 中。理解这些指令可以帮助我们更深入地了解生物学过程,并开辟新途径,将生物学转化为有用的技术。 然而,即便是最简单的微生物基因组也极其复杂,例如被人类研究的最为透彻的大肠杆菌,其基因组包含数百万碱基对,用于编码 DNA 、 RNA 和 蛋白质 之间的相互作用,而这三者是细胞功能的关键参与者,它们之间的信息流动构成了生命的“中心法则”。基因组的这种复杂性存在于多个尺度上,从单个分子到整个基因组,代表着在进化过程中经过功能选择的庞大的遗传信息景观。 人工智能 (AI) 的快速发展使得 大语言模型 (large language model,LLM) 能够在大量数据的训练下展现出越来越先进的多任务推理和生成能力。如果开发出一种能够在大基因序列上保持单核苷酸分辨率的模型,就可
………………………………