一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

o1 实现方法碎碎念

机器学习算法与自然语言处理  · 公众号  · 科技自媒体  · 2024-10-27 00:00

主要观点总结

文章介绍了MLNLP社区的愿景以及关于模型o1的最近研究进展。文章讨论了如何定义reward model,包括通用reward和训练数据的收集。还涉及了数据标注、生成CoT数据、训练方式、推理形式等相关问题。

关键观点总结

关键观点1: MLNLP社区介绍及愿景

MLNLP社区是国内外知名的机器学习与自然语言处理社区,旨在促进学术界、产业界和爱好者之间的交流进步。特别关注初学者的发展。

关键观点2: 模型o1的reward model讨论

文章讨论了模型o1的reward model定义,包括通用reward和训练数据收集的重要性。提到了如何定义一种能泛化到不同领域的通用reward。

关键观点3: 数据标注和生成CoT数据的挑战

文章指出在数据标注和生成包含足够有效信息的CoT数据方面面临的挑战,并讨论了可能的解决方案,如使用多模型进行系统性的数据生成。

关键观点4: 训练方式和模型训练

文章讨论了模型的训练方式,包括使用human data的必要性以及可能的训练流程改动。

关键观点5: 推理形式的讨论

文章讨论了模型o1的推理形式,包括与AlphaGo/AlphaZero的对比以及MCTS的使用。


文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 知乎 作者 | 朱小霖  最近几周都在开心地猜 o1 可能是怎么做的,目前思路上相对收敛了,所以来记录一下,一方面是可以等答案揭晓的时候拿来对比看看,另一方面是自己手里没有真的能去验证想法的资源,所以也可以把心收回去去补落下的工作,等社区的各种资源(例如数据集)更完备再说了。 目前来看 o1 这里唯一明确的信息就是用了 RL。也就是用某种 reward model 指引模型,来提升模型的效果。那么一个最重要的问题是如何定义 reward。我认为在考虑 reward model 的时候,有 2 个点是比较重要的: ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览