专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

量子位  · 公众号  · AI  · 2025-02-10 11:55
    

文章预览

TPO团队 投稿 量子位 | 公众号 QbitAI 随着大语⾔模型(LLMs)在各类任务中展现出令人瞩目的能力,如何确保它们⽣成的回复既符合预期又安全,始终是⼀项关键挑战。 传统的偏好对⻬⽅法,如基于⼈类反馈的强化学习(RLHF)和直接偏好优化(DPO),依赖于训练过程中的模型参数更新,但在⾯对不断变化的数据和需求时,缺乏⾜够的灵活性来适应这些变化。 为了突破这 ⼀瓶颈,上海人工智能实验室、香港中文大学等联合提 出了 推理时偏好优化( TPO) 方法,通过在推理阶段与奖励模型交互,借助可解释的文本反馈,迭代优化模型输出, 实现了即时的模型对⻬,⽽⽆需重新训练。 实验结果表明,TPO能够有效提升未对⻬模型的表现,甚⾄超越经过训练的对⻬模型,为模型偏好对⻬提供了⼀种全新的思路。 △ 训练时偏好优化VS推理时偏好优化 TPO特点 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览