专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
河北卫视  ·  城市烟火 ... ·  昨天  
今天看啥  ›  专栏  ›  AINLP

LLM实践系列-详谈Tokenizer训练细节

AINLP  · 公众号  ·  · 2024-10-15 17:20

文章预览

今天给大家带来知乎@真中合欢的一篇文章,《LLM实践--Tokenizer训练》。 知乎:https://zhuanlan.zhihu.com/p/739078635 经过了数据收集、筛选、去重,马上就可以开始训练实验了。但是在实验之前,我们还需要先获取一个语言模型的基石:分词器(Tokenizer)。Tokenizer 的作用是对一条文本数据进行切分、词表映射,得到这条文本的token序列。 用开源 Tokenizer 还是自己训练 Tokenizer可以自己训练,也可以从目前开源的模型中扒一个来用,用开源Tokenizer有几个点需要着重关注: 压缩率:压缩率决定了文本向量化后的长度,压缩率越高,向量后数据越短,训练和推理效率越高,但是对训练数据的数量要求也越大,主流的tokenizer对汉字的压缩率都在1.5-1.6之间,也就是1.5-1.6个汉字划分为一个token。 token覆盖率:token覆盖率不用纠结细节,只需要关注是否有你的目标语种的t ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览