主要观点总结
文章介绍了MLNLP社区的愿景以及关于模型o1的最近研究进展。文章讨论了如何定义reward model,包括通用reward和训练数据的收集。还涉及了数据标注、生成CoT数据、训练方式、推理形式等相关问题。
关键观点总结
关键观点1: MLNLP社区介绍及愿景
MLNLP社区是国内外知名的机器学习与自然语言处理社区,旨在促进学术界、产业界和爱好者之间的交流进步。特别关注初学者的发展。
关键观点2: 模型o1的reward model讨论
文章讨论了模型o1的reward model定义,包括通用reward和训练数据收集的重要性。提到了如何定义一种能泛化到不同领域的通用reward。
关键观点3: 数据标注和生成CoT数据的挑战
文章指出在数据标注和生成包含足够有效信息的CoT数据方面面临的挑战,并讨论了可能的解决方案,如使用多模型进行系统性的数据生成。
关键观点4: 训练方式和模型训练
文章讨论了模型的训练方式,包括使用human data的必要性以及可能的训练流程改动。
关键观点5: 推理形式的讨论
文章讨论了模型o1的推理形式,包括与AlphaGo/AlphaZero的对比以及MCTS的使用。
文章预览
MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 知乎 作者 | 朱小霖 最近几周都在开心地猜 o1 可能是怎么做的,目前思路上相对收敛了,所以来记录一下,一方面是可以等答案揭晓的时候拿来对比看看,另一方面是自己手里没有真的能去验证想法的资源,所以也可以把心收回去去补落下的工作,等社区的各种资源(例如数据集)更完备再说了。 目前来看 o1 这里唯一明确的信息就是用了 RL。也就是用某种 reward model 指引模型,来提升模型的效果。那么一个最重要的问题是如何定义 reward。我认为在考虑 reward model 的时候,有 2 个点是比较重要的:
………………………………