注册
登录
专栏名称:
人工智能与大数据技术
分享大数据、云计算、人工智能等高科技先进技术
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
DataFunTalk
·
DataOps for LLM ...
·
2 天前
DataFunTalk
·
DataOps for LLM ...
·
2 天前
数据派THU
·
港中文领衔发布大语言模型“诚实性”研究综述: ...
·
4 天前
艺恩数据
·
2024年电动牙刷行业洞察:市场潜力释放,品 ...
·
6 天前
软件定义世界(SDX)
·
首个Sora逆向工程论文发布!
·
6 天前
今天看啥
›
专栏
›
人工智能与大数据技术
准确率秒杀结巴分词,北大开源全新中文分词工具包PKUSeg
人工智能与大数据技术
·
公众号
·
大数据
· 2019-01-15 10:42
文章预览
来自:开源最前线(ID:OpenSourceTop) 分词技术是一种比较基础的模块,就英文而言,词与词之间通常由空格分开,因此英文分词则要简单的多,但中文和英文的词是有区别的,再加上中国文化的博大精深,分词的时候要考虑的情况比英文分词要复杂的多,如果处理不好就会直接影响到后续词性标注、句法分析等的准确性, 目前,我们最常用的分词工具大概有四种哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba。 不过最近,北大开源了一个中文分词工具包,名为 —— PKUSeg ,基于Python。据介绍其准确率秒杀THULAC和结巴分词等工具。 一经开源,pkuseg已经在GitHub上获得 1738 个Star, 244 个Fork(GitHub地址: https://github.com/lancopku/PKUSeg-python ) pkuseg具有如下几个特点: ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
DataFunTalk
·
DataOps for LLM 的数据工程技术架构实践
2 天前
DataFunTalk
·
DataOps for LLM 的数据工程技术架构实践
2 天前
数据派THU
·
港中文领衔发布大语言模型“诚实性”研究综述:让AI更靠谱!
4 天前
艺恩数据
·
2024年电动牙刷行业洞察:市场潜力释放,品牌成长提速
6 天前
软件定义世界(SDX)
·
首个Sora逆向工程论文发布!
6 天前
BWC中文网
·
印度2783家外商逃离,不想被巧取豪夺,印度经济或将衰退20年
2 月前