一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

使用小尺寸大模型和 Dify 清洗数据:Qwen 2.5 7B

深度学习自然语言处理  · 公众号  · 科技媒体  · 2024-09-30 23:54

主要观点总结

文章介绍了如何使用Qwen 2.5 7B模型进行日常低成本的数据清理工作,并分享了使用Dify和Docker搭建AI流水线的经验。文章首先描述了模型选择和准备工作,然后详细描述了流水线配置和数据处理流程,包括内容改写、筛选和预处理。最后,文章提供了完整流水线的配置和引用链接。

关键观点总结

关键观点1: 选择模型

文章使用Qwen 2.5 7B模型的官方量化版,并指出其适用于简单数据任务。

关键观点2: 准备工作

包括安装Docker、Dify,并下载必要的Docker镜像和模型。

关键观点3: 流水线配置

介绍了流水线中的各个节点,如内容改写、筛选和预处理,以及整体流程。

关键观点4: 完整流水线配置

提供了完整的流水线配置,包括环境变量、节点和API文档。

关键观点5: 实际应用

文章通过实际应用场景展示了流水线的使用,如处理腾讯新闻的科技频道数据。


文章预览

本篇文章,我们聊聊如何使用最近发布的 Qwen 2.5 7B 模型来做日常低成本的数据清理工作。 写在前面 这个月好像比上个月还忙,去了很多地方,见了很多朋友。 之前云栖大会上说要写几篇 Qwen 相关的实践,一直没有时间,趁着今天出行前的空档,分享一篇之前使用小模型的经验。 简单好用的 AI 流水线 本篇文章使用的模型是千问 2.5 版本的 7B 模型的官方量化版:Qwen2.5-7B-Instruct-GPTQ-Int4,因为我们要处理的数据任务非常简单,追求效率第一,所以即使使用较小参数量的模型,搭配它的量化版本,也问题不大,在不优化显存占用的情况下大概 17G vRAM(可优化)。 如果你对纯 CPU 推理或者端侧硬件推理感兴趣,可以翻阅之前的文章,更换推理方式。 完整的流水线配置,在文末配置处,有需要自取。 准备工作 本文的准备工作很简单,如果你是我的老读者 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览