实战数据资源提供。数据实力派社区,手把手带你玩各种数据分析,涵盖数据分析工具使用,数据挖掘算法原理与案例,机器学习,R语言,Python编程,爬虫。如需发布广告请联系: hai299014
今天看啥  ›  专栏  ›  大数据挖掘DT数据分析

用python做NLP:中文文本预处理

大数据挖掘DT数据分析  · 公众号  · 大数据  · 2017-05-24 19:42

文章预览

数据挖掘入门与实战  公众号: datadw 一 得到原始文本内容 def  FileRead( self ,filePath):       f = open(filePath)       raw=f.read()        return  raw   二 中文分词 def  NlpirTokener( self ,raw):           result= ''            tokens = nlpir.Seg(raw)            for  w  in  tokens:   #           result+= w[0]+"/"+w[1] #加词性标注                result+= w[ 0 ] + '/' #加词性标注             return  result        def  JiebaTokener( self ,raw):           result= ''            words = pseg.cut(raw)  #进行分词            result=""   #记录最终结果的变量             for  w  in  words:   #            result+= str(w.word)+"/"+str(w.flag) #加词性标注    ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览