专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
今天看啥  ›  专栏  ›  AINLP

【LLM基础知识】LLMs-Tokenizer知识总结笔记v2.0

AINLP  · 公众号  ·  · 2024-06-22 12:10
    

文章预览

【导读】:本文是 LLM知识点 第二篇, 介绍Tokenizer的三种方法,着重整理subword分词算法的BPE(BBPE),WordPiece,ULM。同时也介绍分词工具SentencePiece。 Tokenize粒度和Tokenizer                                                                                            【1】Tokenize有三种粒度:word/char/subword 【1】Tokenize有三种粒度:word/char/ subword a.Tokenize的目标:Tokenize的目标是把文本text切分成子串token,每个子串token相对有完整的语义,便于学习embedding表达和后续模型的使用。 b.Tokenize的粒度:基于词[word]的切分,基于字符[char]的切分,基于子词级[subword]的切分。 以英文文本 Today is sunday为例,切分结果如下: word: 按照词进行分词,可根据空格或标点进行切分。如: Today is sunday. 切分成[today, is, sunday, .] char:按照单字符进行分词,就是以char为最小粒 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览