深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。 如需推送广告合作请联系微个人号: hai299014
今天看啥  ›  专栏  ›  机器学习AI算法工程

NLP实战三:Pytorch实现FastText文本分类

机器学习AI算法工程  · 公众号  ·  · 2024-07-01 11:00

文章预览

向AI转型的程序员都关注公众号 机器学习AI算法工程 NLP实战一:Pytorch实现TextCNN文本分类 NLP实战二:Pytorch实现TextRNN 、TextRNN+Attention文本分类 中文数据集 我从THUCNews中抽取了20万条新闻标题,已上传至github,文本长度在20到30之间。一共10个类别,每类2万条。 类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。 数据集划分: 数据集 数据量 训练集 18万 验证集 1万 测试集 1万 更换自己的数据集 如果用字,按照我数据集的格式来格式化你的数据。 如果用词,提前分好词,词之间用空格隔开, python run.py --model TextCNN --word True 使用预训练词向量:utils.py的main函数可以提取词表对应的预训练词向量。 数据集、词表及对应的预训练词向量,已经打包好,详见THUCNews文件夹。 效果 完整项目和数据集代码获取地址: 关注微信公众号 datayx  ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览