专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

PaperWeekly · 公众号 · 科研 · 2024-06-25 13:40

文章预览

©作者 | 汪军、张海峰等单位 | 中科院、伦敦大学学院来源 | 机器之心在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RLHF）来管理这些模型，成效显著，标志着向更加人性化 AI 迈出的关键一步。尽管 RLHF 取得了巨大成功，但是在训练过程中 RLHF 非常消耗资源。因此，近段时间学者们在 RLHF 奠定的坚实基础上，继续探索更为简单且高效的策略优化路径，催生了直接偏好优化（DPO）的诞生。DPO 通过数学推理得到奖励函数与最优策略之间的直接映射，消除了奖励模型的训练过程，直接在偏好数据上优化策略模型，实现了从「反馈到策略」的直观飞跃。这不仅减少了复杂度，还增强了算法的稳健性，迅速成 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

科研大匠 · Cell重磅：头发和脂肪只能二选一？西湖大学最新研究发现，长期轻断食，毛发生长速度明显下降！

昨天

研之成理 · 董绍俊团队：钯单原子组装体模拟甲酸氧化酶合成过氧化氢

3 天前

研之成理 · 上海电力大学曹怀杰课题组：面向清洁新型能源系统中金属表面防护用MXene涂层设计策略及防护机制

3 天前

募格学术 · 【申报新策略】2025国家自然科学基金：专家视角，带你赢在起跑线

4 天前

PaperWeekly · 苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

4 天前

沃衍资本 · 沃衍资本荣获FOFWEEKLY2024新质生产力投资机构软实力排行榜「先进制造TOP20」「GP TOP100」｜沃衍荣誉

5 月前

星涛投资 · 价值投资不可不知的四种估值要素：资产、盈利、成长，以及特许权

2 月前