专栏名称: 慢慢学 AIGC
关注 AIGC,LLM,AI infra 等方向最新资讯,欢迎高质量技术类文章投稿,商务合作可联系 Mistake113
今天看啥  ›  专栏  ›  慢慢学 AIGC

RLHF 的故事:起源、动机、技术和现代应用

慢慢学 AIGC  · 公众号  ·  · 2024-07-03 11:11
    

文章预览

点击下方 卡片 ,关注“ 慢慢学AIGC ” 人类反馈学习如何彻底改变生成式语言模型 长期以来,AI 社区一直利用不同风格的语言模型(如 n-gram 模型、RNN、transformer 等)来自动化生成式和判别式的自然语言任务。这一研究领域在 2018 年随着 BERT 的提出而经历了一次兴趣激增,BERT 展示了 transformer 架构、自监督预训练和有监督迁移学习形成了一个强大的组合。事实上,BERT 在当时应用的每个基准测试中都创造了新的最先进性能。虽然 BERT 不能用于生成任务,但我们从 T5 看到,有监督迁移学习在这一领域也是有效的。然而,尽管取得了这些成就,但与我们今天拥有的 GPT-4 等 LLM 的生成能力相比,这些模型相形见绌。要创建这样的模型,我们需要远远超出有监督学习的训练技术。 "我们的目标是以最有可能造福全人类的方式推进数字智能。"                  ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览