注册
登录
专栏名称:
深度图学习与大模型LLM
关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
中核集团
·
新年开门红!华龙一号漳州核电1号机组投入商运
·
2 天前
中核集团
·
我国规模最大医用同位素生产基地正式启用!
·
3 天前
今天看啥
›
专栏
›
深度图学习与大模型LLM
强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作
深度图学习与大模型LLM
·
公众号
· · 2024-09-26 14:34
文章预览
转载自 | 机器之心 自我纠正(Self-correction)是大语言模型 (LLM) 非常重要的能力,但人们发现这种能力在现代 LLM 中基本上很少存在。现有的训练自我纠正的方法要么需要多个模型,要么依赖于更强大的模型或其他形式的监督。 我们如何才能让 LLM 具备自我纠正能力?之前的研究要么依赖于提示工程,要么依赖于专门用于自我纠正的微调模型。但前者通常无法有效地进行有意义的内在自我纠正,而后者基于微调的方法需要在推理时运行多个模型,例如需要 oracle「教师」来监督指导自我纠正过程。 在最近提交的一篇论文中,来自 Google DeepMind 的研究者开发了一种无需上述任何要求即可有效进行自我纠正的方法,即通过强化学习进行自我纠正(SCoRe,Self-Correction via Reinforcement Learning),只需训练一个模型,该模型既可以对推理问题做出响应,也可以纠正 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
中核集团
·
新年开门红!华龙一号漳州核电1号机组投入商运
2 天前
中核集团
·
我国规模最大医用同位素生产基地正式启用!
3 天前
营销兵法
·
再次卖断货!诺基亚凭啥?
6 月前
BlueNote爵士乐俱乐部
·
北京|BNCJO 八周年特别呈现:「坐标·北京」系列二「胡同」
3 月前
绘画艺术坏蛋店II
·
就像给狗解释挪威 / 米切尔·凯赫 (Mitchell Kehe)
3 月前
机器学习算法与Python实战
·
超强图解 Pandas 18 招!
3 月前
蛋先生工作室
·
10月5日淘汰鸡行情
3 月前