专栏名称: SparksofAGI
人工智能前沿论文解读
今天看啥  ›  专栏  ›  SparksofAGI

分词器暴露了模型训练数据分布,比如Claude系列模型用了57%的代码数据

SparksofAGI  · 公众号  ·  · 2024-08-04 18:36
    

文章预览

Data Mixture Inference: What do BPE  Tokenizers Reveal about their Training Data? 分词器暴露了模型训练数据分布,比如Claude系列模型用了57%的代码数据 ‍‍‍‍‍ 这篇文章好几天前放出来的了可能大家都看过了,但是最近似乎很难说有太多特别有趣的文章,所以还是写一下。 这篇文章提到,很多最强模型的训练数据分布都是未知的,他们在此提出一个任务叫 数据混合推断(data mixture inference) ,目的是获取训练数据的具体分布信息。他们从BPE分词器,这一被大部分语言模型使用的方法切入,众所周知, BPE分词器学习的合并规则有序列表自然地揭示了其训练数据中token频率的信息 :第一次合并是最常见的字节对,第二次合并是在合并第一个token之后最常见的对,依此类推。举个GPT-4o的例子,如果token对(, \n)是在第51步被合并的,那么它一定是在合并了50个token对之后 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览