专栏名称: CVer

一个专注侃侃计算机视觉方向的公众号。计算机视觉、图像处理、机器学习、深度学习、C/C++、Python、诗和远方等。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

龙虎榜中榜备用 · 周末愉快 · 3 天前

题材小表格 · 固态电池核心！最新A股硫化物概念股梳理 · 4 天前

基本面价值 · 注意，下午这个票！！！ · 5 天前

术道有方分享 · 题材概念“香” VS ... · 5 天前

唐史主任司马迁 · 前面被动剁掉的三个，都反包回来了，今天两个是 ... · 6 天前

今天看啥 › 专栏 › CVer

Karpathy观点惹争议：RLHF不是真正的强化学习！谷歌、Meta下场反对

CVer · 公众号 · · 2024-08-09 23:59

文章预览

点击下方卡片，关注“ CVer ”公众号 AI/CV重磅干货，第一时间送达点击进入—> 【Mamba/多模态/扩散】交流群添加微信号：CVer111，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea 和 CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！转载自：机器之心 | 编辑：杜伟 RLHF 与 RL 到底能不能归属为一类，看来大家还是有不一样的看法。 AI 大牛 Karpathy 又来科普人工智能概念了。昨日，他发推表示，「基于人类反馈的强化学习（RLHF）只是勉强算得上是强化学习（RL）。」 Karpathy 的全文解释如下： RLHF 是训练大语言模型（LLM）的第三个（也是最后一个）主要阶段，前两个阶段分别是预训练和监督微调（SFT）。我认为 RLHF 只是勉强算得上 RL，它没有得到广泛的认可。RL 很强大，但 RLHF 却不 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

龙虎榜中榜备用 · 周末愉快

3 天前

龙虎榜中榜备用 · 周末愉快

3 天前

题材小表格 · 固态电池核心！最新A股硫化物概念股梳理

4 天前

题材小表格 · 固态电池核心！最新A股硫化物概念股梳理

4 天前

基本面价值 · 注意，下午这个票！！！

5 天前

基本面价值 · 注意，下午这个票！！！

5 天前

术道有方分享 · 题材概念“香” VS 成长逻辑“稳”，各走各的道，你选的啥？

5 天前

术道有方分享 · 题材概念“香” VS 成长逻辑“稳”，各走各的道，你选的啥？

5 天前

唐史主任司马迁 · 前面被动剁掉的三个，都反包回来了，今天两个是板的。 -20241120112534

6 天前

上辈子是hr · 社招 | 国金证券招聘风控、合规职位（香港/上海）

3 月前

上辈子是hr · 社招 | 国金证券招聘风控、合规职位（香港/上海）

3 月前

四川大学e教务 · 王玉忠院士为2024级理科新生讲授开学第一课

1 月前