训练数据洗来洗去还是脏，能救吗？试试选择性语言建模，极大提高效率与性能

SparksofAGI · 公众号 · · 2024-04-17 23:24

文章预览

RHO-1: Not All Tokens Are What You Need 训练数据洗来洗去还是脏，能救吗？试试选择性语言建模，极大提高效率与性能 ‍‍‍‍‍‍‍‍‍ ‍‍‍‍‍ 不同于先前的LM预训练时将NSP损失平均地应用在每个token上，本文作者认为 “语料库中的所有token对于语言模型训练并不同等重要” ，他们先初步分析了LM的token级训练动力学，揭示了不同token的损失模式，接着利用实验结论引入了一种新的语言模型，称为RHO-1。不同于传统LM在语料中每个token上做预测， RHO-1采用选择性语言建模（Selective Language Modeling, SLM），它选择性地对与期望分布一致的有用的token进行训练。该方法涉及使用参考模型对预训练token进行评分，然后用一个更加聚焦于拥有较高超额损失的token的loss来训练。在持续预训练15B OpenWebMath语料库时，RHO-1在9个数学任务中少样本准确性上实现了高达30%的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博