注册登录

专栏名称: SparksofAGI

人工智能前沿论文解读

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

麦音乐 · 20多年前许巍作曲、田震演唱《自由自在》想要飞 · 13 小时前

知乎日报 · 2024 知乎年度影人丨追寻银幕之光 · 13 小时前

Q文选英语 · 老外说get the ... · 昨天

小院闲聊 · 深切哀悼刘元先生！ · 2 天前

今天看啥 › 专栏 › SparksofAGI

分词器暴露了模型训练数据分布，比如Claude系列模型用了57%的代码数据

SparksofAGI · 公众号 · · 2024-08-04 18:36

文章预览

Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data? 分词器暴露了模型训练数据分布，比如Claude系列模型用了57%的代码数据 ‍‍‍‍‍ 这篇文章好几天前放出来的了可能大家都看过了，但是最近似乎很难说有太多特别有趣的文章，所以还是写一下。这篇文章提到，很多最强模型的训练数据分布都是未知的，他们在此提出一个任务叫数据混合推断（data mixture inference），目的是获取训练数据的具体分布信息。他们从BPE分词器，这一被大部分语言模型使用的方法切入，众所周知， BPE分词器学习的合并规则有序列表自然地揭示了其训练数据中token频率的信息：第一次合并是最常见的字节对，第二次合并是在合并第一个token之后最常见的对，依此类推。举个GPT-4o的例子，如果token对(, \n)是在第51步被合并的，那么它一定是在合并了50个token对之后 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

麦音乐 · 20多年前许巍作曲、田震演唱《自由自在》想要飞

13 小时前

知乎日报 · 2024 知乎年度影人丨追寻银幕之光

13 小时前

Q文选英语 · 老外说get the picture，和【图片】没啥关系，到底什么意思？

昨天

小院闲聊 · 深切哀悼刘元先生！

2 天前

东方财富证券 · 退市！机构纷纷“踩雷”，12万股民回本无望！

6 月前

工信微报 · 2024年度质量提升与品牌建设典型案例遴选工作启动

3 月前

多鲸 · 教育也出海，中国资本布局马来西亚学校

2 月前

NAI500 · 超微电脑暴跌超过30%，美国AI妖股要原形毕露了？

1 月前

花生十三 · 【跟花生学速算】速算习惯养成计划（9/14）答案！

2 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号