专栏名称: 智源社区助手
智源社区活动及信息通知
目录
相关文章推荐
APPSO  ·  《黑神话:悟空》 ... ·  3 天前  
APPSO  ·  iPhone 17 Air ... ·  5 天前  
APPSO  ·  马斯克新 AI ... ·  1 周前  
小众软件  ·  另外两件事[241118] ·  1 周前  
今天看啥  ›  专栏  ›  智源社区助手

明日直播|LLM Alignment综述及RLHF、DPO、UNA的深入分析

智源社区助手  · 公众号  ·  · 2024-09-23 16:30

文章预览

报告主题: LLM Alignment综述及RLHF、DPO、UNA的深入分析 报告日期: 09月24日(周二)10:30-11:30 报告要点: 报告将深入探讨以下两篇重要文章:1. A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More 以及 2. UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function。对大型语言模型(LLM)进行对齐的目标是确保其输出符合人类价值观和伦理标准,减少偏见与误导性内容的生成,提升模型的安全性,并防止其被恶意利用。通过对齐过程,模型的行为可以更好地与人类期望和社会规范保持一致,从而降低潜在的负面影响,并增强用户的信任度。 本次报告,我们将围绕四个主要主题进行探讨: 1. Reward Model(奖励模型); 2. Feedback(反馈机制); 3. Reinforcement Learning (RL)(强化学习); 4. Optimization(优化方法)。 此外,我们还将从十三个 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览