国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

量子位 · 公众号 · AI · 2024-11-21 12:01

主要观点总结

国内初创公司阶跃星辰的模型在LiveBench排行榜上跃升成为国内第一、世界第五，且是前十名中唯一一家国产公司。其模型Step-2在指令跟随上表现突出，拿下全球第一。阶跃星辰的模型采用MoE架构，完全自主研发，从语言模型到多模态模型均有布局，遵循通往AGI的路线图持续研发迭代。同时，阶跃星辰的产品也展现出强大的实力，如多模态理解大模型Step-1.5V和图像生成大模型Step-1X。此外，智源研究院推出辩论平台FlagEval Debate，通过模型辩论评估大模型能力。

关键观点总结

关键观点1: 阶跃星辰的模型在LiveBench排行榜上取得优异成绩

阶跃星辰的模型在最新的人工智能排行榜LiveBench上表现出色，成为国内第一、世界第五。其自研的万亿参数语言大模型Step-2-16k-202411在Global Average上得分57.68，表现出强大的实力。

关键观点2: Step-2在指令跟随上获得全球第一

在LiveBench榜单上，Step-2在指令跟随项目上获得全球第一，显示出其强大的语言生成能力和理解能力。

关键观点3: 阶跃星辰的模型采用MoE架构，完全自主研发

阶跃星辰的模型采用MoE架构，通过完全自主研发，实现了从语言模型到多模态模型的全面布局。其模型在训练过程中突破了多项关键技术，支撑起了整个模型的高效训练。

关键观点4: 多模态模型的优势

除了语言模型，阶跃星辰的多模态模型也表现出强大的实力。例如，Step-1.5V模型在感知能力、推理能力和视频理解能力上都具有显著优势。此外，图像生成大模型Step-1X也能生成高质量的中国元素内容。

关键观点5: 智源研究院推出辩论平台FlagEval Debate

智源研究院推出的辩论平台FlagEval Debate通过模型辩论这一竞争机制，为大模型能力评估提供了新的度量标尺。该平台可以测试模型的信息理解、知识整合、逻辑推理、语言生成和对话能力等多项技能。

文章预览

衡宇发自凹非寺量子位 | 公众号 QbitAI What？？？一直低调行事的国内初创公司，旗下模型悄悄地跃升成国内第一、世界第五（仅排在o1系列和Claude 3.5之后）！而且是前十名中的唯一一家国产公司。（该榜上国产第二名是阿里开源的qwen2.5-72b-instruct，总榜第13）。而且它登上的这个排行榜LiveBench，虽然现在还没有大模型竞技场（LMSYS Chatboat Arena）那么广为人知，但资格杠杠的—— 图灵奖得主、Meta首席AI科学家杨立昆（Yann LeCun），联合纽约大学等在今年6月推出。号称是 “全球首个无法作弊的LLM基准测试” 。而这次冷不丁杀出来的黑马，其实比较熟悉国内大模型竞争格局的朋友们已经猜到了—— Step系列，背后是大模型六小虎之一的阶跃星辰。指令跟随高分拿下全球第一在LiveBench榜单上，阶跃星辰自研的万亿参数语言大模型Step-2-16k-20241 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博