专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

LLM实践系列-详谈Tokenizer训练细节

AINLP · 公众号 · · 2024-10-15 17:20

文章预览

今天给大家带来知乎@真中合欢的一篇文章，《LLM实践--Tokenizer训练》。知乎：https://zhuanlan.zhihu.com/p/739078635 经过了数据收集、筛选、去重，马上就可以开始训练实验了。但是在实验之前，我们还需要先获取一个语言模型的基石：分词器（Tokenizer）。Tokenizer 的作用是对一条文本数据进行切分、词表映射，得到这条文本的token序列。用开源 Tokenizer 还是自己训练 Tokenizer可以自己训练，也可以从目前开源的模型中扒一个来用，用开源Tokenizer有几个点需要着重关注：压缩率：压缩率决定了文本向量化后的长度，压缩率越高，向量后数据越短，训练和推理效率越高，但是对训练数据的数量要求也越大，主流的tokenizer对汉字的压缩率都在1.5-1.6之间，也就是1.5-1.6个汉字划分为一个token。 token覆盖率：token覆盖率不用纠结细节，只需要关注是否有你的目标语种的t ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博