主要观点总结
国内初创公司阶跃星辰的模型在LiveBench排行榜上跃升成为国内第一、世界第五,且是前十名中唯一一家国产公司。其模型Step-2在指令跟随上表现突出,拿下全球第一。阶跃星辰的模型采用MoE架构,完全自主研发,从语言模型到多模态模型均有布局,遵循通往AGI的路线图持续研发迭代。同时,阶跃星辰的产品也展现出强大的实力,如多模态理解大模型Step-1.5V和图像生成大模型Step-1X。此外,智源研究院推出辩论平台FlagEval Debate,通过模型辩论评估大模型能力。
关键观点总结
关键观点1: 阶跃星辰的模型在LiveBench排行榜上取得优异成绩
阶跃星辰的模型在最新的人工智能排行榜LiveBench上表现出色,成为国内第一、世界第五。其自研的万亿参数语言大模型Step-2-16k-202411在Global Average上得分57.68,表现出强大的实力。
关键观点2: Step-2在指令跟随上获得全球第一
在LiveBench榜单上,Step-2在指令跟随项目上获得全球第一,显示出其强大的语言生成能力和理解能力。
关键观点3: 阶跃星辰的模型采用MoE架构,完全自主研发
阶跃星辰的模型采用MoE架构,通过完全自主研发,实现了从语言模型到多模态模型的全面布局。其模型在训练过程中突破了多项关键技术,支撑起了整个模型的高效训练。
关键观点4: 多模态模型的优势
除了语言模型,阶跃星辰的多模态模型也表现出强大的实力。例如,Step-1.5V模型在感知能力、推理能力和视频理解能力上都具有显著优势。此外,图像生成大模型Step-1X也能生成高质量的中国元素内容。
关键观点5: 智源研究院推出辩论平台FlagEval Debate
智源研究院推出的辩论平台FlagEval Debate通过模型辩论这一竞争机制,为大模型能力评估提供了新的度量标尺。该平台可以测试模型的信息理解、知识整合、逻辑推理、语言生成和对话能力等多项技能。
文章预览
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI What??? 一直低调行事的国内初创公司,旗下模型悄悄地跃升成 国内第一、世界第五 (仅排在o1系列和Claude 3.5之后) ! 而且是 前十名中的唯一一家国产公司 。 (该榜上国产第二名是阿里开源的qwen2.5-72b-instruct,总榜第13) 。 而且它登上的这个排行榜LiveBench,虽然现在还没有大模型竞技场 (LMSYS Chatboat Arena) 那么广为人知,但资格杠杠的—— 图灵奖得主、Meta首席AI科学家杨立昆 (Yann LeCun) ,联合纽约大学等在今年6月推出。 号称是 “全球首个无法作弊的LLM基准测试” 。 而这次冷不丁杀出来的黑马,其实比较熟悉国内大模型竞争格局的朋友们已经猜到了—— Step系列,背后是大模型六小虎之一的 阶跃星辰 。 指令跟随高分拿下全球第一 在LiveBench榜单上,阶跃星辰自研的万亿参数语言大模型Step-2-16k-20241
………………………………