专栏名称: AI产品汇
本公众号的主体内容包含以下4个部分: 1)AI算法说-帮你梳理各种各样的AI算法; 2)模型部署说-帮你剖析各种各种的模型部署与优化工具; 3)AI产品说-帮你剖析市面上形形色色的AI产品; 4)AI热点说-帮我推荐热门的AI话题。
今天看啥  ›  专栏  ›  AI产品汇

谷歌官宣大模型掌握“自我纠错”能力 | 强化学习成为了它的数学老师!没有意外,却有惊喜!

AI产品汇  · 公众号  ·  · 2024-09-23 07:20

文章预览

打造一个有温度、有趣味、专业的全栈式AI 交流社区, 用心写好每一篇文章! “   众所周知,OpenAI近期推出的o1模型在科学、编程和数学任务中展现了显著的推理能力和自我纠错能力,比之前的模型更接近人类思维,o1 代表了向通用人工智能(AGI)迈进的重要一步。 然而,无独有偶,Google DeepMind近期也放出了一篇利用强化学习提升大模型的自我纠错能力的文章。 自我矫正是大型语言模型(LLMs)必须具备的一种能力,但人们发现,在现代LLMs中,它在很大程度上是无效的。  为了让LLM能够具备自我矫正能力,作者开发了一种多回合在线强化学习方法SCoRe,该方法使用完全自生成的数据显著提高了LLM的自我纠正能力。  SCoRe通过在模型自身的自生成校正轨迹分布下进行训练,并使用适当的正则化来引导学习过程学习在测试时有效的自校正策略,而不是 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览