【ACL2024】语言模型对齐的不确定性感知学习

专知 · 公众号 · · 2024-06-11 14:00

文章预览

随着指令微调的大型语言模型（LLMs）的发展，对预训练基础模型的对齐带来了越来越多的挑战。现有的对齐策略通常利用多样化且高质量的数据源，但往往忽视了任务本身的内在不确定性，导致所有数据样本的学习权重相同。这可能会导致数据效率和模型性能的次优表现。为此，我们提出了不确定性感知学习（UAL），通过引入样本的不确定性（从更强大的LLMs中获得），以改进不同任务场景下的模型对齐。我们通过一种简单的方式实现UAL，即根据个别样本的不确定性自适应地设置训练的标签平滑值。分析显示，我们的UAL确实促进了特征空间中更好的token聚类，验证了我们的假设。在广泛使用的基准测试上进行的大量实验表明，我们的UAL显著且持续地优于标准的监督微调。值得注意的是，在混合场景中对齐的LLMs在高熵任务（如AlpacaEval排行榜）上平 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新闻广角 · 刚刚！新一批看牙消费券来了！

昨天

新闻广角 · 25岁“世纪婴儿”千千去世鉴定结果已出，母亲：结果符合预期，希望医院道歉

2 天前

效率研究所 · 这12个考点包含了过去10年97.2%的导数压轴题｜《最后18分·导数》5小时高效特训

10 月前

龚文祥 · 钉钉总裁吐槽百度：搜索信息，出来10条记录结果全是广告钉钉总裁叶-20240624100042

9 月前

三门峡政务 · G628线洛界至渑陕界段改造工程启动

1 月前