专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

S-DPO: 基于直接偏好优化(DPO)进行推荐大模型微调的探索

AI TIME 论道  · 公众号  ·  · 2024-07-02 18:00

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 近日,来自新加坡国立大学等机构的研究者探索了直接偏好优化在推荐大模型场景下的应用,并提出Softmax-DPO (S-DPO),对Softmax采样策略与DPO的结合进行了深入探究。 代码:https://github.com/chenyuxin1999/S-DPO 论文地址:https://arxiv.org/abs/2406.09215 AITIME 01 研究背景 现阶段,推荐大模型进行微调往往沿用语言模型的目标函数,也即下一分词预测任务。然而,推荐的本质并不是语言建模(language modeling),而更多是根据用户偏好数据,进行用户行为模拟(user behavior modeling),也即用户偏好排序任务。故而,探索真正适合推荐大模型的优化目标,成为了突破现阶段推荐性能的核心。 研究者认为,当前训练大模型推荐系统的目标函数遵从传统语言模型的训练范式,没有直接针对用户偏好排序进行优化,忽视了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览