今天看啥  ›  专栏  ›  Dots机构投资者社区

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

Dots机构投资者社区  · 公众号  ·  · 2024-12-08 08:15
    

文章预览

本文转自微信公众号“新智元”,作者:新智元。 编辑:Aeneas 好困 【导读】 OpenAI第二天的直播,揭示了强化微调的强大威力:强化微调后的o1-mini,竟然全面超越了地表最强基础模型o1。而被奥特曼称为「2024年我最大的惊喜」的技术,技术路线竟和来自字节跳动之前公开发表的强化微调研究思路相同。 OpenAI 12天连播的第二弹,用短短三个单词体现了什么叫「字少事大」——强化微调(Reinforcement Fine-Tuning)。 首先,这是OpenAI第一次将之前仅限自家模型(如GPT-4o和o1系列)使用的强化学习技术,开放给外部开发者。 其次,开发者只需提供最低「几十个」高质量任务,就能通过强化微调实现领域专家模型的定制!并且,还能根据提供的参考答案对模型的回应进行评分。 最后,强化微调加强了模型在处理领域问题时的推理能力,并提升了在特定任务上 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览