从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

机器之心 · 公众号 · AI · 2024-06-23 12:25

文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com 在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RLHF）来管理这些模型，成效显著，标志着向更加人性化 AI 迈出的关键一步。尽管 RLHF 取得了巨大成功，但是在训练过程中 RLHF 非常消耗资源。因此，近段时间学者们在 RLHF 奠定的坚实基础上，继续探索更为简单且高效的策略优化路径，催生了直接偏好优化（DPO）的诞生。DPO 通过数 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

量子位 · 空间智能上车！长城汽车铁娘子：真正的智能车应该无缝集成所有场景 | CES 2025

8 小时前

爱可可-爱生活 · 【ROS 2自定义消息可视化器（CMV）：用于生成自定义消息的R-20250107191124

昨天

黄建同学 · 其实现在也没有标准的中文翻译，翻译成代理或者智能体的都有，但我潜-20250106214557

2 天前

黄建同学 · DeepSeek创始人梁文锋2023年（疯狂的幻方：一家隐形AI-20250106195345

2 天前

爱可可-爱生活 · TANGOFLUX 通过创新的 CRPO 框架和高效的 rect-20250105061455

3 天前

中国数字医学 · 泰心医院：空中120 立体式生命救援

5 月前

上海普陀 · 家医社区行、中医药特色巡诊……普陀这里健康服务惠民生

1 周前