专栏名称: AI寒武纪

Attention Is All You Need

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

橘猫看球 · 轻解读丨APT. APT. ... · 15 小时前

佑子爸爸育儿 · “爸，你当初是看中我妈钱了吧？”网友晒父亲老 ... · 3 天前

华泰睿思 · 华泰 | 光伏：供给侧政策开始落地 · 3 天前

娱乐独角兽 · “五十岁保姆嫁豪门”、“退休返聘”……短剧会 ... · 6 天前

培哥有话说 · 令人唏嘘的武汉“孕妇选美比赛”，撕开了当下社 ... · 6 天前

今天看啥 › 专栏 › AI寒武纪

AI大神Andrej Karpathy：RLHF并非真正的强化学习，强化学习还未实现

AI寒武纪 · 公众号 · · 2024-08-08 12:47

文章预览

OpenAI联合创始人和特斯拉前AI总监Andrej Karpathy大神对当前广受关注的RLHF（基于人类反馈强化学习）技术提出了尖锐的批评。他指出，尽管RLHF被视为大语言模型训练的重要一环，但它可能只是一个"纸老虎"——看似强大，实则存在根本性缺陷，他认为： 1.RLHF（人类反馈强化学习）实际上并不是真正的强化学习 2.RLHF使用的奖励模型只是人类偏好的代理，而非真正的目标函数 3.RLHF容易被模型游戏化，导致出现不合理但高分的输出 4.尽管有局限性，RLHF仍然在某些方面有益于LLM的训练 5.真正的LLM强化学习尚未实现，但可能是未来AI突破的关键以下是全文， RLHF 只是勉强算作强化学习基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）是训练大语言模型（LLM）的第三个（也是最后一个）主要阶段，在预训练和监督微调（SFT）之后。我对RLHF的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

橘猫看球 · 轻解读丨APT. APT. APT....不好意思走错片场了

15 小时前

橘猫看球 · 轻解读丨APT. APT. APT....不好意思走错片场了

15 小时前

佑子爸爸育儿 · “爸，你当初是看中我妈钱了吧？”网友晒父亲老照片，惊艳了时光

3 天前

佑子爸爸育儿 · “爸，你当初是看中我妈钱了吧？”网友晒父亲老照片，惊艳了时光

3 天前

华泰睿思 · 华泰 | 光伏：供给侧政策开始落地

3 天前

娱乐独角兽 · “五十岁保姆嫁豪门”、“退休返聘”……短剧会是“银发经济”下一风口吗？

6 天前

培哥有话说 · 令人唏嘘的武汉“孕妇选美比赛”，撕开了当下社会离谱的一幕

6 天前

培哥有话说 · 令人唏嘘的武汉“孕妇选美比赛”，撕开了当下社会离谱的一幕

6 天前

香樟经济学术圈 · 第四届香樟西部简报|孟大文：重复博弈与无名氏理论

3 月前

北航就业 · 招聘 | 中国电科网络通信研究院 | 2024-2025秋季招聘正式启动

2 月前

AINLP · 还在“卷”长度？长文本模型真的基于上下文进行回复吗？

1 月前