今天看啥  ›  专栏  ›  灵度智能

g1:o1推理链开源实现,原理竟如此简单!解决 60-80% 的困扰LLM的简单逻辑问题

灵度智能  · 公众号  ·  · 2024-09-21 12:16

文章预览

🍹  Insight Daily  🪺 Aitrainee | 公众号:AI进修生 Hi,这里是Aitrainee,欢迎阅读本期新文章。 OpenAI的o1已经发布一段时间了,网上都是对其大加称赞,他们说o1在复杂任务上面的表现令人印象深刻,甚至已经达到或超过了博士水平,并且在代码、数学的能力水平尤为突出,我对此也表示赞同。 此外,我觉得o1不会是单纯 gpt-4o+Agent+思维链 能到达的水平,可能o1训练的数据集会存在一种tag,其作用是提供一个问题不同种类的、拆解的、细致的解决步骤,当然,这可能只是其中一种训练方式。 OpenAI 的 o1 采用 大规模强化学习 进行训练,利用 思想链进行推理 ,在复杂的博士级问题上实现了最先进的性能。 它训练方式也从原来的人类反馈强化学习变成AI反馈强化学习。因为官方有提到它是使用强化学习,类似于AlphaGo,所以如果要一直用这种强化学习训练下 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览