专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

【LLM模型微调】LLMs-数据构造-LIMA-论文总结v3.0

AINLP · 公众号 · · 2024-08-18 21:25

文章预览

【导读】：本文是LLM模型微调第三篇，分享论文 LIMA: Less Is More for Alignment的解读，主要学习其中1k条微调数据的构造技巧。 LIMA 【1】LIMA相关论文 LIMA论文：LIMA: Less Is More for Alignment 论文地址：https://arxiv.org/abs/2305.11206 Cool paper:https://papers.cool/arxiv/search?highlight=1 =LIMA+Less+Is+More LIMA数据集： https://huggingface.co/datasets/GAIR/lima LIMA - 核心总结【1】LIMA论文摘要 1.LLM 的训练分为两个阶段： (1)对raw text进行无监督的预训练，以学习通用的表示； (2)大规模的指令微调和强化学习，以更好地对齐最终任务和用户偏好。 2.通过训练LIMA来衡量预训练和指令微调这两个阶段的相对重要性。LIMA只在1k 个精心挑选的提示和响应( prompts and responses )上进行标准监督损失的微调，没有任何强化学习或人类偏好建模。 3.LIMA表现出强大的性能，能够从训练数据中的少量示例中学习遵 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

高工智能汽车 · 零跑，销量暴增背后的难题

14 小时前

湛江日报 · 正式揭牌！广东再添一所高校！

17 小时前

湛江日报 · 正式揭牌！广东再添一所高校！

17 小时前

小米汽车 · 明天是小米SU7正式亮相一周年，回顾这一年，有很多难忘的瞬间和背-20241227200001

昨天

混在邯郸 · 邯郸人民路过街天桥旁，发生一起事故

昨天

混在邯郸 · 邯郸人民路过街天桥旁，发生一起事故

昨天

联盟设计库 · 60本室内设计畅销书籍PDF，实体书太贵？电子书更有性价比！

5 月前

口罩哥研报60秒 · CRYPTO WEEKEND：巴菲特大量卖苹果周末恐慌蔓延比特币触及70000后猛烈回调

4 月前