文章预览
报告主题: LLM Alignment综述及RLHF、DPO、UNA的深入分析 报告日期: 09月24日(周二)10:30-11:30 报告要点: 报告将深入探讨以下两篇重要文章:1. A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More 以及 2. UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function。对大型语言模型(LLM)进行对齐的目标是确保其输出符合人类价值观和伦理标准,减少偏见与误导性内容的生成,提升模型的安全性,并防止其被恶意利用。通过对齐过程,模型的行为可以更好地与人类期望和社会规范保持一致,从而降低潜在的负面影响,并增强用户的信任度。 本次报告,我们将围绕四个主要主题进行探讨: 1. Reward Model(奖励模型); 2. Feedback(反馈机制); 3. Reinforcement Learning (RL)(强化学习); 4. Optimization(优化方法)。 此外,我们还将从十三个
………………………………