主要观点总结
英伟达基于Llama 3.1打造的Nemotron-70B-Instruct开源模型在三大自动对齐基准测试中全部登顶开源第一,并吊打闭源GPT-4o和Claude 3.5 Sonnet。该模型使用RLHF微调,高质量的训练数据和HelpSteer2偏好提示。用户可以去build.nvidia.com免费试用。部署该模型需要至少配备4块40GB或2块80GB英伟达GPU的机器以及150GB的可用磁盘空间。
关键观点总结
关键观点1: Nemotron-70B-Instruct模型在三大基准测试中全胜开源
英伟达的Nemotron模型在Arena Hard、AlpacaEval 2 LC和MT Bench三大基准测试中,全部获得开源第一名。并且表现优于闭源的GPT-4o和Claude 3.5 Sonnet。
关键观点2: Nemotron模型使用RLHF微调
Nemotron模型采用了人类反馈强化学习(RLHF)进行微调,具体来说是使用了REINFORCE算法,使得模型更符合人类偏好。
关键观点3: Nemotron模型具有强大的回答能力
Nemotron可以正确回答“草莓里有多少个 r”这个难题,不需要特殊的提示或额外的推理token。
关键观点4: Nemotron模型的部署要求
部署Nemotron模型需要至少配备4块40GB或2块80GB英伟达GPU的机器,以及150GB的可用磁盘空间。详细的部署步骤可参考NVIDIA NeMo Framework的文档。
文章预览
英伟达也加入 LLM 军备竞赛了!🚀 他们基于 Llama 3.1 打造的 Nemotron-70B-Instruct 开源模型,在 Arena Hard、AlpacaEval 2 LC 和 MT Bench 三大自动对齐基准测试中全部登顶开源第一!并且吊打闭源 GPT-4o 和 Claude 3.5 Sonnet! Nemotron 究竟有多强? 三大基准,开源模型全部第一: 截至 2024 年 10 月 1 日,Nemotron 在 Arena Hard 上得分为 85.0,AlpacaEval 2 LC(已验证)得分为 57.6,MT Bench (GPT-4-Turbo) 得分为 8.98,全部排名第一! Arena Hard 使用数据管道从 Chatbot Arena 中的实时数据建立高质量基准,并以其对 Chatbot Arena Elo 分数的预测能力以及有用模型和较无用模型之间的可分离性而闻名 Chatbot Arena总体排名 轻松答对How many r in strawberry?: 它可以正确回答“草莓里有多少个 r” 这个一直困扰各种先进模型的问题,而且不需要特殊的提示或额外的推理 token!😅 Nemotron 的“秘密武器
………………………………