Science | 基因组基石模型预测与生成多组分系统

CNS导读 · 公众号 · · 2024-11-15 23:59

文章预览

就像大语言模型一样，优秀的基因组基石模型可以捕捉演化过程塑造的多样的基因组的序列模式特征，并生成满足用户功能需求的序列[1]。近日，就有一项发表在Science的工作介绍了这种基因组基石模型[1]。此项来自斯坦福大学Brian L. Hie以及UC Berkeley Patrick D. Hsu等研究人员的工作通过数据库中上百万的原核生物与噬菌体包含上千亿碱基的基因组（没有详细的注释）来训练一个基于 StripedHyena架构（一种deep signal processing architecture；70亿参数）的模型[2], [3]。发现该模型能够从分子（蛋白、ncRNA以及调控序列）到基因组水平预测其适应性（也就是突变对其的功能影响）；并生成编码CRISPR-Cas9、转座子系统等核糖核蛋白复合物的序列（需要进一步的fine-tuning；这也是首个协同生成编码蛋白与RNA序列的语言模型），甚至生成整个看起来架构合理的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博