文章预览
↑ 点击 蓝字 关注极市平台 来源丨新智元 极市导读 今天,OpenAI悄悄在博客上发布了一篇新论文——CriticGPT,而这也是前任超级对齐团队的「遗作」之一。CriticGPT同样基于GPT-4训练,但目的却是用来指正GPT-4的输出错误,实现「自我批评」。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 OpenAI最近的拖延症状逐渐严重,不仅GPT-5遥遥无期,前几天还宣布GPG-4o的语音功能将推迟一个月发布。 或许是为了缓解广大网友的热切期待,OpenAI在今天放出了新模型 CriticGPT ,相当于GPT-4的「拐杖」。 我们训练了一个模型CriticGPT,来捕获GPT-4生成代码中的错误。我们开始将此类模型集成到RLHF对齐管道中,以帮助人类监督AI执行困难的任务。 值得注意的是,CriticGPT依旧是用GPT-4模型训练的,但被用于给GPT-4生成的代码「捉虫」,这似乎有点「自我闭环」的意思
………………………………