专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

【LLM模型微调】LLMs-数据构造-LIMA-论文总结v3.0

AINLP  · 公众号  ·  · 2024-08-18 21:25
    

文章预览

【导读】: 本文是LLM模型微调第三篇,分享论文 LIMA: Less Is More for Alignment的解读, 主要学习其中1k条微调数据的构造技巧。 LIMA 【1】LIMA相关论文 LIMA论文:LIMA: Less Is More for Alignment 论文地址:https://arxiv.org/abs/2305.11206 Cool paper:https://papers.cool/arxiv/search?highlight=1 =LIMA+Less+Is+More LIMA数据集: https://huggingface.co/datasets/GAIR/lima LIMA - 核心总结 【1】LIMA论文摘要 1.LLM 的训练分为两个阶段 : (1)对raw text进行无监督的预训练,以学习通用的表示; (2)大规模的指令微调和强化学习,以更好地对齐最终任务和用户偏好。 2.通过训练LIMA来衡量预训练和指令微调这两个阶段的相对重要性。LIMA只在1k 个精心挑选的提示和响应( prompts and responses )上进行标准监督损失的微调,没有任何强化学习或人类偏好建模。 3.LIMA表现出强大的性能,能够从训练数据中的少量示例中学习遵 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览