今天看啥  ›  专栏  ›  AI寒武纪

英伟达也来卷大模型!Llama 3.1 魔改版 Nemotron 发布,性能登顶三大基准

AI寒武纪  · 公众号  ·  · 2024-10-17 13:53

文章预览

英伟达也加入 LLM 军备竞赛了!🚀 他们基于 Llama 3.1 打造的  Nemotron-70B-Instruct  开源模型,在 Arena Hard、AlpacaEval 2 LC 和 MT Bench 三大自动对齐基准测试中全部登顶开源第一!并且吊打闭源 GPT-4o 和 Claude 3.5 Sonnet! Nemotron 究竟有多强? 三大基准,开源模型全部第一:  截至 2024 年 10 月 1 日,Nemotron 在 Arena Hard 上得分为 85.0,AlpacaEval 2 LC(已验证)得分为 57.6,MT Bench (GPT-4-Turbo) 得分为 8.98,全部排名第一! Arena Hard 使用数据管道从 Chatbot Arena 中的实时数据建立高质量基准,并以其对 Chatbot Arena Elo 分数的预测能力以及有用模型和较无用模型之间的可分离性而闻名 Chatbot Arena总体排名 轻松答对How many r in strawberry?:  它可以正确回答“草莓里有多少个 r” 这个一直困扰各种先进模型的问题,而且不需要特殊的提示或额外的推理 token!😅 Nemotron 的“秘密武器 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览