专栏名称: 酷酷的群
统计机器学习、深度学习、自然语言处理、图神经网络。
今天看啥  ›  专栏  ›  酷酷的群

LIMA:小规模监督数据指令微调

酷酷的群  · 公众号  ·  · 2023-07-17 11:36

文章预览

论文标题:LIMA: Less Is More for Alignment 论文链接:https://arxiv.org/abs/2305.11206 论文来源:Meta AI 一、概述 语言模型在大规模语料上以预测下一个token的方式预训练,使它们能够学习可迁移到几乎任何语言理解或生成任务的通用表示。为了实现这种迁移,已经提出了各种用于对齐语言模型的方法,主要包括在大型百万级示例数据集上的指令微调,以及从人类反馈中的强化学习 (RLHF),这些反馈是通过与人类标注员的数百万次交互收集的。现有的对齐方法需要大量的计算和专门的数据才能达到ChatGPT级别的性能。然而,我们证明,只需在1000个精心策划的训练示例上进行微调,就可以利用强大的预训练语言模型获得显著的强大性能。 我们假设对齐可以是一个简单的过程,其中模型学习与用户交互的风格或格式(style or format),以展示在预训练过程中已经获得的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览