专栏名称: 机器学习初学者
号主黄博Github全球排名前90,3.6万Star!致力于为初学者提供学习路线和基础资料,公众号可以当作随身小抄,文章很全,建议收藏!点击菜单可以进入学习!
今天看啥  ›  专栏  ›  机器学习初学者

中文分词的古今中外,你想知道的都在这里

机器学习初学者  · 公众号  ·  · 2020-02-27 11:34
作者:QvQ,夕小瑶,小鹿鹿鹿前言分词(word tokenization),也叫切词,即通过某种方式将句子中的各个词语识别并分离开来,使得文本从“字序列”的表示升级为“词序列”表示。分词技术不仅仅适用于中文,对于英文、日文、韩文等语言也同样适用。虽然英文中有天然的单词分隔符(空格),但是常有单词与其他标点黏滞的情况,比如"Hey, how are you."中的"Hey"和"you"是需要与身后的标点分隔开的目录为什么需要分词?能不能不分词?中文分词难在哪?从古至今的分词算法:词典到预训练从中到外的分词工具为什么需要分词?对于中文来说,如果不进行分词,那么神经网络将直接基于原始的汉字序列进行处理和学习。然而我们知道一个字在不同的词语中可能含义迥然不同 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照