专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

【经验贴】LLM - finetuning - 踩坑经验之谈

关于NLP那些你不知道的事 · 公众号 · · 2024-09-14 00:00

文章预览

【经验贴】LLM - finetuning - 踩坑经验之谈 FelixCoder 文章：https://zhuanlan.zhihu.com/p/639462205 一、前言由于 ChatGPT 和 GPT4 兴起，如何让人人都用上这种大模型，是目前 AI 领域最活跃的事情。当下开源的 LLM(Large language model) 非常多，可谓是百模大战。面对诸多开源本地模型，根据自己的需求，选择适合自己的基座模型和参数量很重要。选择完后需要对训练数据进行预处理，往往这一步就难住很多同学，无从下手，更别说 training。然后再对模型进行 finetuning 来更好满足自己的下游任务。那么对于如果要训练一个专家模型。预训练也是必不可缺的工作。不管是预训练还是 finetuning(微调)，无论选用何种方案，都避免不了训练中产生的灾难性遗忘问题，那么怎么减少和避免这种情况的发生，也是本文想讲的一个重点。对于推理，在 GPU 资源不富裕的情况，如何最小 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博