注册
登录
专栏名称:
专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
田俊国讲坛
·
田俊国:如如不动,念念无生,了了分明|守住人 ...
·
12 小时前
中国航空工业集团
·
AR-500C交付!正式列入国家应急救援装备体系
·
3 天前
德鲁克博雅管理
·
创新与企业家精神
·
4 天前
今天看啥
›
专栏
›
专知
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知
·
公众号
· · 2024-07-25 14:00
文章预览
随着自监督学习的进步、预训练语料库中数万亿标记的可用性、指令微调以及具有数十亿参数的大型Transformer的发展,大型语言模型(LLMs)现在能够生成符合事实且连贯的人类查询响应。然而,训练数据质量参差不齐可能导致生成不良响应,成为一个重大挑战。 在过去的两年里,从不同角度提出了各种方法来增强LLMs,特别是在使其与人类期望对齐方面 。尽管做出了这些努力,但尚未有一篇综合性调查论文对这些方法进行分类和详细说明。在本工作中,我们旨在填补这一空白,将这些论文分类为不同主题,并提供每种对齐方法的详细解释,从而帮助读者全面了解该领域的现状。 在过去的几十年中,通过自监督学习对大型语言模型(LLMs)进行的预训练取得了显著进展 。这些进步得益于更大的仅解码Transformer的开发、数万亿标记的利用以及跨多个GPU ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
田俊国讲坛
·
田俊国:如如不动,念念无生,了了分明|守住人生几个紧要处
12 小时前
中国航空工业集团
·
AR-500C交付!正式列入国家应急救援装备体系
3 天前
德鲁克博雅管理
·
创新与企业家精神
4 天前
雷递
·
360前三季营收56亿:同比降17% 扣非后净亏8亿
1 月前
武汉发布
·
紧急提醒!不要扫!武汉已有人中招
2 周前