OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

量子位 · 公众号 · AI · 2024-12-07 03:35

主要观点总结

本文介绍了OpenAI在“双12”直播中的第二天主题：新功能强化微调（Reinforcement Fine-Tuning）。通过使用极少训练数据，该功能能在特定领域轻松创建专家模型。CEO奥特曼表示强化微调效果出色，是2024年最大的惊喜。强化微调后的o1-mini模型得分提高80%，超过o1正式版。目前OpenAI已开启强化微调研究计划，并将在生物化学、安全、法律和医疗保健等领域应用。直播还展示了强化微调在生物医学任务中的应用实例。同时，OpenAI提供了不同的评分模型并支持自定义。强化微调将在2025年初作为产品发布。

关键观点总结

关键观点1: 强化微调功能介绍

OpenAI的新功能强化微调（Reinforcement Fine-Tuning）允许使用极少训练数据在特定领域创建专家模型。微调后的模型性能显著提升。

关键观点2: 强化微调的效果

强化微调的效果显著，微调后的o1-mini模型得分提高80%，超过o1正式版。OpenAI的强化微调研究计划在生物化学、安全、法律和医疗保健等领域取得成功。

关键观点3: 直播内容和嘉宾

直播中展示了强化微调功能的全过程，嘉宾包括OpenAI自家研究员和伯克利实验室计算生物学家。直播还展示了强化微调在生物医学任务中的应用实例。

关键观点4: 强化微调的应用前景

强化微调可能并不适合所有任务，但会在科学领域带来突破性的成果。OpenAI计划将强化微调作为产品在2025年初发布，对企业、大学和研究院已开放申请测试通道。

文章预览

梦晨西风发自凹非寺量子位 | 公众号 QbitAI OpenAI“双12”直播第二天，依旧简短精悍，主题：新功能强化微调（Reinforcement Fine-Tuning），使用极少训练数据即在特定领域轻松地创建专家模型。少到什么程度呢？最低几十个例子就可以。 CEO奥特曼表示“效果一级棒，是我2024年最大的惊喜，期待看到人们构建什么！” 那么效果有多棒呢？微调后的o1-mini模型得分提高80%，直接反超o1正式版。目前OpenAI已开启强化微调研究计划，开发者可以申请强化微调API的alpha版本访问权限。进行测试时，可使用几十到几千个高质量数据，模型能够通过强化学习自行探索和学习如何推理复杂任务。蹲守直播间的网友们听得也是one愣one愣的，完全没有料想到今晚“圣诞盲盒“是酱婶儿的。 OpenAI员工Jerry Tworek 则表示 “AGI不是授人以鱼，而是授人以渔” 。 OpenAI微 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博