注册
登录
专栏名称:
机器学习研究组订阅
连接人工智能技术人才和产业人才的交流平台
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
[IR]《Language-Model ...
·
昨天
小互AI
·
炸裂:P图软件将全部倒闭 ...
·
4 天前
小互AI
·
炸裂:P图软件将全部倒闭 ...
·
4 天前
黄建同学
·
了解一下什么是Agentic ...
·
6 天前
宝玉xp
·
AI可以帮助人写出好的Prompt,但只有人 ...
·
6 天前
爱可可-爱生活
·
本文揭示了视觉语言模型驱动的自主Agent容 ...
·
1 周前
今天看啥
›
专栏
›
机器学习研究组订阅
完全使用「自生成数据」实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%
机器学习研究组订阅
·
公众号
·
AI
· 2024-09-27 19:01
文章预览
OpenAI最新发布的o1模型再次证明了自我纠正、显式思考过程在大模型推理中的重要性,思维链可以帮助大模型分解复杂问题,利用计算和交互来改进模型在测试时的性能。 不过,最近有多项研究结果表明,大模型在缺乏外部输入的情况下,基本上无法实现自我纠正,而现有的自我纠正训练方法要么需要多个模型,要么依赖更强大的模型或其他形式的监督信号。 Google DeepMind的研究人员发布了一种多轮在线强化学习(RL)方法 SCoRe,在完全使用自生成数据(entirely self-generated data)的情况下,显着提高了LLM的自我纠正能力。 论文链接: https://arxiv.org/pdf/2409.12917 研究人员首先验证了有监督微调 (SFT) 及其变体得到的离线模型,生成的纠正轨迹(correction traces)不足以把自我纠正能力灌输(still)给语言模型。 还可以观察到,通过 SFT 进行的训练要么会受到 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
[IR]《Language-Model Prior Overco-20241116061700
昨天
小互AI
·
炸裂:P图软件将全部倒闭 字节跳动发布AI图像编辑工具 只需一句话即可实现全自动P图
4 天前
小互AI
·
炸裂:P图软件将全部倒闭 字节跳动发布AI图像编辑工具 只需一句话即可实现全自动P图
4 天前
黄建同学
·
了解一下什么是Agentic RAG↓#ai##程序员# 文章介-20241110141441
6 天前
宝玉xp
·
AI可以帮助人写出好的Prompt,但只有人能写出高水平的Pro-20241110154134
6 天前
爱可可-爱生活
·
本文揭示了视觉语言模型驱动的自主Agent容易受到看似简单的恶意-20241110071313
1 周前
都市时报
·
教授与女下属签“亲密关系”承诺书?北师大回应
3 周前
人人都是产品经理
·
与生成式 AI 的 6 种对话类型
17 小时前