文章预览
英伟达也加入 LLM 军备竞赛了!🚀 他们基于 Llama 3.1 打造的 Nemotron-70B-Instruct 开源模型,在 Arena Hard、AlpacaEval 2 LC 和 MT Bench 三大自动对齐基准测试中全部登顶开源第一!并且吊打闭源 GPT-4o 和 Claude 3.5 Sonnet! Nemotron 究竟有多强? 三大基准,开源模型全部第一: 截至 2024 年 10 月 1 日,Nemotron 在 Arena Hard 上得分为 85.0,AlpacaEval 2 LC(已验证)得分为 57.6,MT Bench (GPT-4-Turbo) 得分为 8.98,全部排名第一! Arena Hard 使用数据管道从 Chatbot Arena 中的实时数据建立高质量基准,并以其对 Chatbot Arena Elo 分数的预测能力以及有用模型和较无用模型之间的可分离性而闻名 Chatbot Arena总体排名 轻松答对How many r in strawberry?: 它可以正确回答“草莓里有多少个 r” 这个一直困扰各种先进模型的问题,而且不需要特殊的提示或额外的推理 token!😅 Nemotron 的“秘密武器
………………………………