专栏名称: OpenCV学堂
一个致力于计算机视觉OpenCV原创技术传播的公众号!OpenCV计算机视觉与tensorflow深度学习相关算法原创文章分享、函数使用技巧、源码分析与讨论、,计算机视觉前沿技术介绍,技术专家经验分享,人才交流,学习交流。
今天看啥  ›  专栏  ›  OpenCV学堂

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

OpenCV学堂  · 公众号  ·  · 2024-08-09 23:13
    

文章预览

点击上方 ↑↑↑ “ OpenCV学堂 ”关注我 来源:公众号  新智元   授权 【导读】 Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。 LLM对数据的大量消耗,不仅体现在预训练语料上,还体现在RLHF、DPO等对齐阶段。 后者不仅依赖昂贵的人工标注数据,而且很可能让人类水平限制LLM的进一步发展。 今年1月,Meta和NYU的团队就提出了语言模型的自我奖励机制,使用LLM-as-a-Judge的提示机制,让模型在训练期间进行自我反馈。 论文地址:https://arxiv.org/abs/2401.10020 论文发现,即使不依靠人类标注者,LLM也能通过评价自己的响应实现性能提升。 最近,这个团队又发表了一篇研究,将LLM「自我奖励」这件事情再拔高了一个层次。 论文地址:https://arxiv.org/abs/2407.19594 毕竟是自己给自己 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览