专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【NeurIPS2024】训练计算最优的蛋白质语言模型

专知  · 公众号  ·  · 2024-11-09 12:00

文章预览

我们探讨了如何最优地训练蛋白质语言模型,这一领域在生物研究中备受关注,但有关最佳实践的指导较为有限。大多数模型在训练时耗费大量计算资源,直到性能增益趋于平稳,主要集中在增加模型规模,而非优化平衡性能和计算预算的高效计算边界。我们的研究基于包含 9.39 亿条蛋白质序列的大规模数据集。我们训练了超过 300 个模型,参数规模从 350 万到 107 亿不等,训练的独特标记数从 50 亿到 2000 亿,以探讨模型规模、训练标记数量和目标之间的关系。 首先,我们观察到因果语言模型(CLM)的收益递减效应,以及在重复使用常见的 Uniref 数据库时,掩码语言模型(MLM)的过拟合现象。为了解决这一问题,我们在训练集中加入了宏基因组蛋白质序列,以增加多样性,避免性能的平稳或过拟合现象。其次,我们获得了基于 Transformer 的 CLM 和 MLM ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览