专栏名称: 人工智能前沿讲习
领先的人工智能知识平台
目录
今天看啥  ›  专栏  ›  人工智能前沿讲习

【他山之石】LLM实现自回归搜索!MIT哈佛等提出「行动思维链」COAT,推理能力大提升

人工智能前沿讲习  · 公众号  ·  · 2025-02-11 18:00
    

文章预览

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注! 【导读】 本研究提出了一种创新的自回归搜索方法,通过两阶段训练框架,小规模格式调优和大规模自我优化,开发出了Satori,一个在数学推理和跨领域任务中均表现优异的7B参数模型。Satori通过自我反思和探索策略,展现了强大的迁移能力和自我纠错能力。 OpenAI o1发布后,为提升LLM的推理能力,研究者尝试了多种方法。 比如用强大的教师模型进行知识蒸馏、采用蒙特卡洛树搜索(MCTS),以及基于奖励模型的引导搜索。 近日,来自MIT、新加坡科技设计大学、哈佛大学等机构的华人研 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览