专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

S-DPO: 基于直接偏好优化（DPO）进行推荐大模型微调的探索

AI TIME 论道 · 公众号 · · 2024-07-02 18:00

文章预览

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！近日，来自新加坡国立大学等机构的研究者探索了直接偏好优化在推荐大模型场景下的应用，并提出Softmax-DPO （S-DPO），对Softmax采样策略与DPO的结合进行了深入探究。代码：https://github.com/chenyuxin1999/S-DPO 论文地址：https://arxiv.org/abs/2406.09215 AITIME 01 研究背景现阶段，推荐大模型进行微调往往沿用语言模型的目标函数，也即下一分词预测任务。然而，推荐的本质并不是语言建模（language modeling），而更多是根据用户偏好数据，进行用户行为模拟（user behavior modeling），也即用户偏好排序任务。故而，探索真正适合推荐大模型的优化目标，成为了突破现阶段推荐性能的核心。研究者认为，当前训练大模型推荐系统的目标函数遵从传统语言模型的训练范式，没有直接针对用户偏好排序进行优化，忽视了 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国舞台美术学会 · 舞台“人、货、场”——内容创意、场景创新及观演互动体验

6 天前

中国舞台美术学会 · 观察丨当打卡小剧场成为“顶流”，小小新空间火出演艺产业

6 天前

RRCG人人素材 · 逼真游戏人物角色眼睛虹膜3D模型

3 月前

中国国土空间规划 · 一图读懂丨中共中央国务院关于加快经济社会发展全面绿色转型的意见

3 月前

黑马程序员 · 国产编程语言MoonBit崛起！运行速度比GO快35倍！

1 月前

蔻享学术 · 【直播】【光电子讲坛】笼目材料的超导、电荷密度波和非平庸拓扑相

2 周前