分享大数据、云计算、人工智能等高科技先进技术
今天看啥  ›  专栏  ›  人工智能与大数据技术

准确率秒杀结巴分词,北大开源全新中文分词工具包PKUSeg

人工智能与大数据技术  · 公众号  · 大数据  · 2019-01-15 10:42

文章预览

来自:开源最前线(ID:OpenSourceTop)  分词技术是一种比较基础的模块,就英文而言,词与词之间通常由空格分开,因此英文分词则要简单的多,但中文和英文的词是有区别的,再加上中国文化的博大精深,分词的时候要考虑的情况比英文分词要复杂的多,如果处理不好就会直接影响到后续词性标注、句法分析等的准确性, 目前,我们最常用的分词工具大概有四种哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba。 不过最近,北大开源了一个中文分词工具包,名为 —— PKUSeg ,基于Python。据介绍其准确率秒杀THULAC和结巴分词等工具。 一经开源,pkuseg已经在GitHub上获得 1738 个Star, 244 个Fork(GitHub地址: https://github.com/lancopku/PKUSeg-python ) pkuseg具有如下几个特点: ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览