专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【ACL2024】语言模型对齐的不确定性感知学习

专知  · 公众号  ·  · 2024-06-11 14:00
    

文章预览

随着指令微调的大型语言模型(LLMs)的发展,对预训练基础模型的对齐带来了越来越多的挑战。现有的对齐策略通常利用多样化且高质量的数据源,但往往忽视了任务本身的内在不确定性,导致所有数据样本的学习权重相同。这可能会导致数据效率和模型性能的次优表现。为此, 我们提出了不确定性感知学习(UAL),通过引入样本的不确定性(从更强大的LLMs中获得),以改进不同任务场景下的模型对齐 。我们通过一种简单的方式实现UAL,即根据个别样本的不确定性自适应地设置训练的标签平滑值。分析显示,我们的UAL确实促进了特征空间中更好的token聚类,验证了我们的假设。在广泛使用的基准测试上进行的大量实验表明,我们的UAL显著且持续地优于标准的监督微调。值得注意的是,在混合场景中对齐的LLMs在高熵任务(如AlpacaEval排行榜)上平 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览