专栏名称: 歸藏的AI工具箱
产品设计师🎨 AI画图工具操作员🔧 AI课程撰写与信息收集整理📰 致力于发掘借助AI工具改善设计与产品开发流程的各种可能性🤔
今天看啥  ›  专栏  ›  歸藏的AI工具箱

不要“教授”,要激励是Self-play RL的关键?Open AI 研究员分享

歸藏的AI工具箱  · 公众号  ·  · 2024-09-20 17:28

文章预览

Open AI 研究员 Hyung Won Chung [1] 放出了他去年的一次分享。 可能刚好讲到了可能关于 o1 的核心训练思路。 他的逻辑是 不要“教授”,要激励 。 比如涉及 RL 时候常用来举例子的 AlphaGo。 不要告诉模型如何才能赢得棋局,而应该引导模型学习什么是好的走法。 核心内容 背景介绍: • 传统的机器学习方法往往直接"教授"模型特定的技能或知识。 • 但在开发通用人工智能时,我们无法枚举所有需要的技能和知识。 • 计算能力正在指数级增长,为新的训练范式提供了可能。 "激励"而非"教授"的核心思想: • 不是直接教授模型特定技能,而是创造一个环境或任务,激励模型自主学习。 • 这种方法让模型能够发展出更通用、更灵活的能力。 以大语言模型(LLM)为例: • LLM主要通过"下一个token预测"任务来训练。 • 这个简单的任务实际上是一个强大的激 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览