公众号【Coggle数据科学】专注算法竞赛实战分享
今天看啥  ›  专栏  ›  机器学习理论与数据竞赛实战

打包带走,竞赛必备的NLP库

机器学习理论与数据竞赛实战  · 知乎专栏  ·  · 2020-09-25 21:39

文章预览

上周在给大家介绍了OpenMMlab一系列的CV库后,有很多同学问有没有推荐的NLP库。因此本周我们给大家整理了机器学习和竞赛相关的NLP库,方便大家进行使用,建议收藏本文 jieba jieba是Python中的优秀的中文分词第三方库,通过几行代码就可以完成中文句子的分词。jieba的分词精度和性能非常优异,经常用来进行中文分词的实验对比。此外jieba还可以很方便的自定义词典,使用起来非常灵活。 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print("Full Mode: " + "/ ".join(seg_list)) # 全模式 # 【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学 seg_list = jieba.cut("我来到北京清华大学", cut_all=False) print("Default Mode: " + "/ ".join(seg_list)) # 精确模式 # 【精确模式】: 我/ 来到/ 北京/ 清华大学 seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式 print(" ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览