专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

使用小尺寸大模型和 Dify 清洗数据：Qwen 2.5 7B

深度学习自然语言处理 · 公众号 · 科技媒体 · 2024-09-30 23:54

主要观点总结

文章介绍了如何使用Qwen 2.5 7B模型进行日常低成本的数据清理工作，并分享了使用Dify和Docker搭建AI流水线的经验。文章首先描述了模型选择和准备工作，然后详细描述了流水线配置和数据处理流程，包括内容改写、筛选和预处理。最后，文章提供了完整流水线的配置和引用链接。

关键观点总结

关键观点1: 选择模型

文章使用Qwen 2.5 7B模型的官方量化版，并指出其适用于简单数据任务。

关键观点2: 准备工作

包括安装Docker、Dify，并下载必要的Docker镜像和模型。

关键观点3: 流水线配置

介绍了流水线中的各个节点，如内容改写、筛选和预处理，以及整体流程。

关键观点4: 完整流水线配置

提供了完整的流水线配置，包括环境变量、节点和API文档。

关键观点5: 实际应用

文章通过实际应用场景展示了流水线的使用，如处理腾讯新闻的科技频道数据。

文章预览

本篇文章，我们聊聊如何使用最近发布的 Qwen 2.5 7B 模型来做日常低成本的数据清理工作。写在前面这个月好像比上个月还忙，去了很多地方，见了很多朋友。之前云栖大会上说要写几篇 Qwen 相关的实践，一直没有时间，趁着今天出行前的空档，分享一篇之前使用小模型的经验。简单好用的 AI 流水线本篇文章使用的模型是千问 2.5 版本的 7B 模型的官方量化版：Qwen2.5-7B-Instruct-GPTQ-Int4，因为我们要处理的数据任务非常简单，追求效率第一，所以即使使用较小参数量的模型，搭配它的量化版本，也问题不大，在不优化显存占用的情况下大概 17G vRAM（可优化）。如果你对纯 CPU 推理或者端侧硬件推理感兴趣，可以翻阅之前的文章，更换推理方式。完整的流水线配置，在文末配置处，有需要自取。准备工作本文的准备工作很简单，如果你是我的老读者 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博