文章预览
Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data? 分词器暴露了模型训练数据分布,比如Claude系列模型用了57%的代码数据 这篇文章好几天前放出来的了可能大家都看过了,但是最近似乎很难说有太多特别有趣的文章,所以还是写一下。 这篇文章提到,很多最强模型的训练数据分布都是未知的,他们在此提出一个任务叫 数据混合推断(data mixture inference) ,目的是获取训练数据的具体分布信息。他们从BPE分词器,这一被大部分语言模型使用的方法切入,众所周知, BPE分词器学习的合并规则有序列表自然地揭示了其训练数据中token频率的信息 :第一次合并是最常见的字节对,第二次合并是在合并第一个token之后最常见的对,依此类推。举个GPT-4o的例子,如果token对(, \n)是在第51步被合并的,那么它一定是在合并了50个token对之后
………………………………