文章预览
就像大语言模型一样,优秀的基因组基石模型可以捕捉演化过程塑造的多样的基因组的序列模式特征,并生成满足用户功能需求的序列[1]。 近日,就有一项发表在Science的工作介绍了这种基因组基石模型[1]。 此项来自斯坦福大学Brian L. Hie以及UC Berkeley Patrick D. Hsu等研究人员的工作通过 数据库中上百万的原核生物与噬菌体包含上千亿碱基的基因组 (没有详细的注释) 来训练一个基于 StripedHyena架构 (一种deep signal
processing architecture;70亿参数) 的模型[2], [3]。发现该模型能够从分子 (蛋白、ncRNA以及调控序列) 到基因组水平 预测 其适应性 (也就是突变对其的功能影响) ;并 生成 编码CRISPR-Cas9、转座子系统等核糖核蛋白复合物的序列 (需要进一步的fine-tuning;这也是 首个 协同生成编码蛋白与RNA序列的语言模型) ,甚至生成整个看起来架构合理的
………………………………