专栏名称: 待字闺中
深度分析大数据、深度学习、人工智能等技术,切中实际应用场景,为大家授业解惑。间或,也会介绍国内外相关领域有趣的面试题。
今天看啥  ›  专栏  ›  待字闺中

97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)

待字闺中  · 公众号  · 程序员 科技自媒体  · 2016-11-22 08:03
    

文章预览

摘要 深度学习当前在NLP领域发展也相当快,翻译,问答,摘要等基本都被深度学习占领了。 本文给出基于深度学习的中文分词实现,借助大规模语料,不需要构造额外手工特征,在2014年人民日报语料上取得97.5%的准确率。模型基本是参考论文: http://www.aclweb.org/anthology/N16-1030 相关方法 中文分词是个比较经典的问题,各大互联网公司都会有自己的分词实现。 考虑到性能,可维护性,词库更新,多粒度,以及其他的业务需求,一般工业界中文分词方案都是基于规则。 1) 基于规则的常见的就是最大正/反向匹配,以及双向匹配。 2) 规则里糅合一定的统计规则,会采用动态规划计算最大的概率路径的分词 以上说起来很简单,其中还有很多细节,比如词法规则的高效匹配 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览