专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

Meta浙大校友让评估模型「自学成才」,数据全合成无需人工标注,训练Llama 3 70B超过405B

新智元  · 公众号  · AI  · 2024-08-25 11:08
    

主要观点总结

新智元报道,随着LLM不断迭代,人工标注成为模型扩展的显著障碍之一。MetaFAIR团队提出了一种使用迭代式方法「自学成才」的评估模型训练方法,该方法让Llama-3-Instruct模型分数超过了Llama 3.1-405B。该方法构建评估模型完全依赖合成数据,无需人工标注,通过迭代自我训练提升模型准确率。实验结果显示,该方法在RewardBench上的准确率从75.4提升至88.7,超过了使用人类标注数据的方法。

关键观点总结

关键观点1: 背景介绍

随着大型语言模型(LLM)的不断迭代和改进,人工标注数据成为模型扩展的瓶颈。为了解决这个问题,MetaFAIR团队提出了一种新的评估模型训练方法。

关键观点2: 方法概述

该方法使用合成数据来解决人工标注的问题。通过收集人类编写的用户指令和初始种子LLM,经过指令选择、响应对构建、迭代训练等步骤,训练出自评估模型。在训练过程中,完全依赖合成数据,无需人工标注。

关键观点3: 实验与评估

实验结果显示,该方法在RewardBench上的准确率从75.4%提升至88.7%,超过了使用人类标注数据的方法。此外,该方法还超越了GPT-4和Gemini 1.5 Pro等模型。

关键观点4: 存在的问题和局限性

该研究还存在一些问题,如第一轮训练迭代时模型的假设验证、对较小模型的适用性、模型判断模式的研究以及推理成本的考虑等。


文章预览

   新智元报道   编辑:乔杨 【新智元导读】 随着LLM不断迭代,偏好和评估数据中大量的人工标注逐渐成为模型扩展的显著障碍之一。 Meta FAIR的团队最近提出了一种使用迭代式方法「自学成才」的评估模型训练方法,让70B参数的Llama-3-Instruct模型分数超过了Llama 3.1-405B。   LLM在开发周期的每个阶段都依赖强大的评估模型,比如训练阶段用于对齐人类偏好或迭代自我改进的奖励模型,以及推理阶段作为人类评估的替代方案。 构建评估模型往往依赖大量的高质量人类偏好数据,不仅耗时长、成本高,而且在模型扩展到新任务或评估标准时造成了阻碍。 此外,随着新模型不断迭代改进时,现有的标注数据往往会过时,因为其中的评估是基于旧有的、性能较差的模型相应。这意味着需要不断重复上述的数据标注和收集流程。 最近,Meta FAIR发表的一篇研 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览