LIMA：小规模监督数据指令微调

酷酷的群 · 公众号 · · 2023-07-17 11:36

文章预览

论文标题：LIMA: Less Is More for Alignment 论文链接：https://arxiv.org/abs/2305.11206 论文来源：Meta AI 一、概述语言模型在大规模语料上以预测下一个token的方式预训练，使它们能够学习可迁移到几乎任何语言理解或生成任务的通用表示。为了实现这种迁移，已经提出了各种用于对齐语言模型的方法，主要包括在大型百万级示例数据集上的指令微调，以及从人类反馈中的强化学习 (RLHF)，这些反馈是通过与人类标注员的数百万次交互收集的。现有的对齐方法需要大量的计算和专门的数据才能达到ChatGPT级别的性能。然而，我们证明，只需在1000个精心策划的训练示例上进行微调，就可以利用强大的预训练语言模型获得显著的强大性能。我们假设对齐可以是一个简单的过程，其中模型学习与用户交互的风格或格式（style or format），以展示在预训练过程中已经获得的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博