【NeurIPS2024】训练计算最优的蛋白质语言模型

专知 · 公众号 · · 2024-11-09 12:00

文章预览

我们探讨了如何最优地训练蛋白质语言模型，这一领域在生物研究中备受关注，但有关最佳实践的指导较为有限。大多数模型在训练时耗费大量计算资源，直到性能增益趋于平稳，主要集中在增加模型规模，而非优化平衡性能和计算预算的高效计算边界。我们的研究基于包含 9.39 亿条蛋白质序列的大规模数据集。我们训练了超过 300 个模型，参数规模从 350 万到 107 亿不等，训练的独特标记数从 50 亿到 2000 亿，以探讨模型规模、训练标记数量和目标之间的关系。首先，我们观察到因果语言模型（CLM）的收益递减效应，以及在重复使用常见的 Uniref 数据库时，掩码语言模型（MLM）的过拟合现象。为了解决这一问题，我们在训练集中加入了宏基因组蛋白质序列，以增加多样性，避免性能的平稳或过拟合现象。其次，我们获得了基于 Transformer 的 CLM 和 MLM ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新浪科技 · 【#黑神话悟空上线100天赚70亿#，业内人士：#黑神话证明中国-20241128142000

昨天

新浪科技 · 【#华为Mate70维修备件价格##Mate70屏幕主体优惠价1-20241127172217

2 天前

新浪科技 · 【#传朱衍生将执掌金融监管总局北京局#】金融一线获悉，国家金融监-20241127175526

2 天前

新浪科技 · 【#微信员工回应文件发给10人存了10次#：仅为避免冲突，不是真-20241126095500

3 天前

新浪科技 · 【#专家呼吁取消禁酒令#】#对话新十年# “2024中国经济新闻-20241123142620

6 天前

Daxue Insights · Is there a future for AliExpress and Temu in South Korea?

4 月前

三联生活周刊 · 15年后“破镜重圆”，全球乐迷最怀念的摇滚顶流回归了？

3 月前

万联证券研究所 · 【万联电子丨行业快评】关注突破关键核心技术的科技型企业并购重组机遇

2 月前