文章预览
🍹 Insight Daily 🪺 Aitrainee | 公众号:AI进修生 Hi,这里是Aitrainee,欢迎阅读本期新文章。 OpenAI的o1已经发布一段时间了,网上都是对其大加称赞,他们说o1在复杂任务上面的表现令人印象深刻,甚至已经达到或超过了博士水平,并且在代码、数学的能力水平尤为突出,我对此也表示赞同。 此外,我觉得o1不会是单纯 gpt-4o+Agent+思维链 能到达的水平,可能o1训练的数据集会存在一种tag,其作用是提供一个问题不同种类的、拆解的、细致的解决步骤,当然,这可能只是其中一种训练方式。 OpenAI 的 o1 采用 大规模强化学习 进行训练,利用 思想链进行推理 ,在复杂的博士级问题上实现了最先进的性能。 它训练方式也从原来的人类反馈强化学习变成AI反馈强化学习。因为官方有提到它是使用强化学习,类似于AlphaGo,所以如果要一直用这种强化学习训练下
………………………………