专栏名称: FreeBuf
国内关注度最高的全球互联网安全新媒体
今天看啥  ›  专栏  ›  FreeBuf

机器学习之垃圾信息过滤

FreeBuf  · 公众号  · 互联网安全  · 2018-04-28 18:00
    

文章预览

在网络安全中,对用户发布的垃圾内容,广告进行过滤,或者对文本类别进行分类都是非常重要的一环。cherry分类器使用了贝叶斯模型算法,通过简单的优化,使用了1000个训练数据得到97.5%的准确率,并且提供了混淆矩阵和ROC曲线便于分析。虽然现在主流的框架都带有贝叶斯模型算法,大多数开发者都是直接调用api。但是在实际业务中,面对不同的数据集,必须了解算法的原理,实现以及懂得对结果进行分析,才能达到高准确率。 cherry分类器 cherry分类器默认支持中英文分类,自带的数据缓存中,中文训练数据包含正常,政治敏感,赌博,色情4个类别,英文训练数据包含正常邮件,垃圾邮件两个类别 (训练数据可以通过Google drive下载)。调用非常容易,使用pip安装 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览