专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释

PaperWeekly  · 公众号  · 科研  · 2024-11-21 13:41

文章预览

©作者 |  王奕森 单位 |  北京大学 自我纠错(Self Correction)能力,传统上被视为人类特有的特征,正越来越多地在人工智能领域,尤其是大型语言模型(LLMs)中得到广泛应用,最近爆火的 OpenAI o1 模型 [1] 和 Reflection 70B 模型 [2] 都采取了自我纠正的方法。 传统的大语言模型,因为在输出答案的时候是逐个 Token 输出,当输出长度较长时,中间某些 Token 出错是必然发生。但即使 LLM 后来知道前面输出的 Token 错了,它也得用更多错误来“圆谎”,因为没有机制让它去修正前面的错误。 而 OpenAI o1 在“慢思考”也就是生成 Hidden COT 的过程中,通过分析 OpenAI 官网给出的 Hidden COT 例子可以发现,在解决字谜问题的思考过程中,o1 首先发现了每两个连续的明文字母会映射到一个秘文字母,于是便尝试使用奇数字母来构建明文,但是经过验证发现并不合理(Not ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览