注册
登录
专栏名称:
深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
archrace 建筑竞赛
·
结果 | 爱沙尼亚伊萨库小学设计竞赛结果
·
13 小时前
gooood谷德设计网
·
捷克七层之家
·
2 天前
gooood谷德设计网
·
葡萄牙Moreira de Conegos医疗中心
·
3 天前
今天看啥
›
专栏
›
深度学习自然语言处理
tokenizer简述
深度学习自然语言处理
·
公众号
· · 2024-09-20 14:03
文章预览
知乎 :难赋 链接 :https://zhuanlan.zhihu.com/p/721054525 简述 为了方便计算机处理文本,我们常把文本转化为数值的形式。具体操作是把文本分割成有意义的片段,再把这些片段映射为数组,就能够利用各种深度学习的技术来处理文本了。把文本分割成有意义的片段这一过程称为tokenize,片段称为token。我们可以发现,token是计算机处理文本的基本单位。 tokenize是一个复杂的问题,针对不同的情况出现了很多的算法。人力资源是非常昂贵的,程序员是一群喜欢自动化的人。因此我们在处理这个问题时首先回答了一个这样的问题:能否采用某种无监督的方式,通过某种算法将连续的文本自动地转化为token? 回答完这个问题后,人们把tokenize的过程分为以下几个步骤: 把训练文本中的所有字符作为初始token 根据某种规则把联系紧密的token对合并为更高阶的token ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
archrace 建筑竞赛
·
结果 | 爱沙尼亚伊萨库小学设计竞赛结果
13 小时前
gooood谷德设计网
·
捷克七层之家
2 天前
gooood谷德设计网
·
葡萄牙Moreira de Conegos医疗中心
3 天前
淘股吧
·
尾盘,这个方向暴力抢筹!
2 周前