今天看啥  ›  专栏  ›  机器之心

OpenAI的强化微调:RL+Science 创造新神还是灭霸?

机器之心  · 公众号  · AI  · 2024-12-08 12:41
    

文章预览

机器之心转载 来源:知乎王梦迪 2024 年 12 月 6 号加州时间上午 11 点, OpenAI 发布了新的 Reinforcement Finetuning 方法,用于构造专家模型。 对于特定领域的决策问题,比如医疗诊断、罕见病诊断等等,只需要上传几十到几千条训练案例,就可以通过微调来找到最有的决策。 数据的形式类似于 instructiong tuning 的常见形式,有多个选项以及正确选项。同一时间,OpenAI 还发布了一个强化微调研究项目,鼓励学者专家们上传自己领域的独特数据,测试他们的强化微调能力。 1 这个结果很漂亮,用的技术正是已经广泛应用于 alignment, math, coding 领域的方法,其前身就是 Reinforcement learning from human feedback (RLHF). RLHF 用来对齐大模型与人类偏好性数据,训练数据的形式为(问题,回答 1,回答 2,偏好),让用户选择更喜欢的回答,学习人类的偏好,训练奖励模型(rewa ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览