文章预览
RHO-1: Not All Tokens Are What You Need 训练数据洗来洗去还是脏,能救吗?试试选择性语言建模,极大提高效率与性能 不同于先前的LM预训练时将NSP损失平均地应用在每个token上,本文作者认为 “语料库中的所有token对于语言模型训练并不同等重要” ,他们先初步分析了LM的token级训练动力学,揭示了不同token的损失模式,接着利用实验结论引入了一种新的语言模型,称为RHO-1。不同于传统LM在语料中每个token上做预测, RHO-1采用选择性语言建模(Selective Language Modeling, SLM),它选择性地对与期望分布一致的有用的token进行训练 。该方法涉及使用参考模型对预训练token进行评分,然后用一个更加聚焦于拥有较高超额 损失的token的loss来训练。 在持续预训练15B OpenWebMath语料库时,RHO-1在9个数学任务中少样本准确性上实现了高达30%的
………………………………