【他山之石】LLM实现自回归搜索！MIT哈佛等提出「行动思维链」COAT，推理能力大提升

人工智能前沿讲习 · 公众号 · · 2025-02-11 18:00

文章预览

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注！【导读】本研究提出了一种创新的自回归搜索方法，通过两阶段训练框架，小规模格式调优和大规模自我优化，开发出了Satori，一个在数学推理和跨领域任务中均表现优异的7B参数模型。Satori通过自我反思和探索策略，展现了强大的迁移能力和自我纠错能力。 OpenAI o1发布后，为提升LLM的推理能力，研究者尝试了多种方法。比如用强大的教师模型进行知识蒸馏、采用蒙特卡洛树搜索（MCTS），以及基于奖励模型的引导搜索。近日，来自MIT、新加坡科技设计大学、哈佛大学等机构的华人研 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博