RLHF 的故事：起源、动机、技术和现代应用

慢慢学 AIGC · 公众号 · · 2024-07-03 11:11

文章预览

点击下方卡片，关注“ 慢慢学AIGC ” 人类反馈学习如何彻底改变生成式语言模型长期以来，AI 社区一直利用不同风格的语言模型(如 n-gram 模型、RNN、transformer 等)来自动化生成式和判别式的自然语言任务。这一研究领域在 2018 年随着 BERT 的提出而经历了一次兴趣激增，BERT 展示了 transformer 架构、自监督预训练和有监督迁移学习形成了一个强大的组合。事实上，BERT 在当时应用的每个基准测试中都创造了新的最先进性能。虽然 BERT 不能用于生成任务，但我们从 T5 看到，有监督迁移学习在这一领域也是有效的。然而，尽管取得了这些成就，但与我们今天拥有的 GPT-4 等 LLM 的生成能力相比，这些模型相形见绌。要创建这样的模型，我们需要远远超出有监督学习的训练技术。 "我们的目标是以最有可能造福全人类的方式推进数字智能。" ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

甘肃省发改委 · 推动授信超10万亿元

昨天

甘肃省发改委 · 推动授信超10万亿元

昨天

兵团新闻网 · 【与你为邻】土耳其客商：我很喜欢在新疆做生意

2 天前

兵团新闻网 · 【与你为邻】土耳其客商：我很喜欢在新疆做生意

2 天前

深圳新闻网 · 卖爆了！深圳门店大排长队！有人等了60分钟……

3 天前

深圳新闻网 · 卖爆了！深圳门店大排长队！有人等了60分钟……

3 天前

中国化工信息周刊 · 2024制浆造纸工业和生物降解材料、纸基材料与食品纸包装展览会暨水处理化学品技术及应用展览会顺利闭幕

9 月前

人民网 · 突破核心技术！交付列装！

6 月前

新闻坊 · 全球患者近4亿！上海自研创药获批上市，无激素、见效快→

2 月前