英伟达也来卷大模型！Llama 3.1 魔改版 Nemotron 发布，性能登顶三大基准

AI寒武纪 · 公众号 · 科技自媒体 · 2024-10-17 13:53

主要观点总结

英伟达基于Llama 3.1打造的Nemotron-70B-Instruct开源模型在三大自动对齐基准测试中全部登顶开源第一，并吊打闭源GPT-4o和Claude 3.5 Sonnet。该模型使用RLHF微调，高质量的训练数据和HelpSteer2偏好提示。用户可以去build.nvidia.com免费试用。部署该模型需要至少配备4块40GB或2块80GB英伟达GPU的机器以及150GB的可用磁盘空间。

关键观点总结

关键观点1: Nemotron-70B-Instruct模型在三大基准测试中全胜开源

英伟达的Nemotron模型在Arena Hard、AlpacaEval 2 LC和MT Bench三大基准测试中，全部获得开源第一名。并且表现优于闭源的GPT-4o和Claude 3.5 Sonnet。

关键观点2: Nemotron模型使用RLHF微调

Nemotron模型采用了人类反馈强化学习（RLHF）进行微调，具体来说是使用了REINFORCE算法，使得模型更符合人类偏好。

关键观点3: Nemotron模型具有强大的回答能力

Nemotron可以正确回答“草莓里有多少个 r”这个难题，不需要特殊的提示或额外的推理token。

关键观点4: Nemotron模型的部署要求

部署Nemotron模型需要至少配备4块40GB或2块80GB英伟达GPU的机器，以及150GB的可用磁盘空间。详细的部署步骤可参考NVIDIA NeMo Framework的文档。

文章预览

英伟达也加入 LLM 军备竞赛了！🚀 他们基于 Llama 3.1 打造的 Nemotron-70B-Instruct 开源模型，在 Arena Hard、AlpacaEval 2 LC 和 MT Bench 三大自动对齐基准测试中全部登顶开源第一！并且吊打闭源 GPT-4o 和 Claude 3.5 Sonnet！ Nemotron 究竟有多强？三大基准，开源模型全部第一：截至 2024 年 10 月 1 日，Nemotron 在 Arena Hard 上得分为 85.0，AlpacaEval 2 LC（已验证）得分为 57.6，MT Bench (GPT-4-Turbo) 得分为 8.98，全部排名第一！ Arena Hard 使用数据管道从 Chatbot Arena 中的实时数据建立高质量基准，并以其对 Chatbot Arena Elo 分数的预测能力以及有用模型和较无用模型之间的可分离性而闻名 Chatbot Arena总体排名轻松答对How many r in strawberry?：它可以正确回答“草莓里有多少个 r” 这个一直困扰各种先进模型的问题，而且不需要特殊的提示或额外的推理 token！😅 Nemotron 的“秘密武器 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国地震台网 · 麻烦大家帮忙投个票

7 小时前

中国地震台网 · 麻烦大家帮忙投个票

7 小时前

融媒吴江 · 深夜王炸！微信+DeepSeek来了

10 小时前

融媒吴江 · 深夜王炸！微信+DeepSeek来了

10 小时前

科技美学官方 · 小米15 Ultra国际版定档，继续合作徕卡

昨天

李楠或kkk · 我说 intel 是垃圾公司，有人不同意，但是，是有理有据的。i-20250215002313

2 天前

贵州法治报 · 饺子导演正式回应《哪吒3》

2 天前

贵州法治报 · 饺子导演正式回应《哪吒3》

2 天前

IPRlearn · 7月桂林8月银川丨科技成果转移转化操作实务能力与知识产权运营管理提升班

7 月前

参考消息 · 最新！缅甸代总统移交职权

6 月前

李斌 · 三天10个站点，近600公里的行程，我们西游五人组的南疆加电县县-20240918150238

5 月前