文章预览
向AI转型的程序员都关注公众号 机器学习AI算法工程 NLP实战一:Pytorch实现TextCNN文本分类 NLP实战二:Pytorch实现TextRNN 、TextRNN+Attention文本分类 NLP实战三:Pytorch实现FastText文本分类 中文数据集 我从THUCNews中抽取了20万条新闻标题,已上传至github,文本长度在20到30之间。一共10个类别,每类2万条。 类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。 数据集划分: 数据集 数据量 训练集 18万 验证集 1万 测试集 1万 更换自己的数据集 如果用字,按照我数据集的格式来格式化你的数据。 如果用词,提前分好词,词之间用空格隔开, python run.py --model TextCNN --word True 使用预训练词向量:utils.py的main函数可以提取词表对应的预训练词向量。 数据集、词表及对应的预训练词向量,已经打包好,详见THUCNews文件夹。 效果 完整项目和数据集代
………………………………