明日直播｜LLM Alignment综述及RLHF、DPO、UNA的深入分析

智源社区助手 · 公众号 · · 2024-09-23 16:30

文章预览

报告主题： LLM Alignment综述及RLHF、DPO、UNA的深入分析报告日期： 09月24日（周二）10:30-11:30 报告要点: 报告将深入探讨以下两篇重要文章：1. A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More 以及 2. UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function。对大型语言模型（LLM）进行对齐的目标是确保其输出符合人类价值观和伦理标准，减少偏见与误导性内容的生成，提升模型的安全性，并防止其被恶意利用。通过对齐过程，模型的行为可以更好地与人类期望和社会规范保持一致，从而降低潜在的负面影响，并增强用户的信任度。本次报告，我们将围绕四个主要主题进行探讨： 1. Reward Model（奖励模型）； 2. Feedback（反馈机制）； 3. Reinforcement Learning (RL)（强化学习）； 4. Optimization（优化方法）。此外，我们还将从十三个 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博