专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

国产模型指令跟随全球第一!来自LeCun亲推的「最难作弊」大模型新榜单

量子位  · 公众号  · AI  · 2024-11-21 12:01

主要观点总结

国内初创公司阶跃星辰的模型在LiveBench排行榜上跃升成为国内第一、世界第五,且是前十名中唯一一家国产公司。其模型Step-2在指令跟随上表现突出,拿下全球第一。阶跃星辰的模型采用MoE架构,完全自主研发,从语言模型到多模态模型均有布局,遵循通往AGI的路线图持续研发迭代。同时,阶跃星辰的产品也展现出强大的实力,如多模态理解大模型Step-1.5V和图像生成大模型Step-1X。此外,智源研究院推出辩论平台FlagEval Debate,通过模型辩论评估大模型能力。

关键观点总结

关键观点1: 阶跃星辰的模型在LiveBench排行榜上取得优异成绩

阶跃星辰的模型在最新的人工智能排行榜LiveBench上表现出色,成为国内第一、世界第五。其自研的万亿参数语言大模型Step-2-16k-202411在Global Average上得分57.68,表现出强大的实力。

关键观点2: Step-2在指令跟随上获得全球第一

在LiveBench榜单上,Step-2在指令跟随项目上获得全球第一,显示出其强大的语言生成能力和理解能力。

关键观点3: 阶跃星辰的模型采用MoE架构,完全自主研发

阶跃星辰的模型采用MoE架构,通过完全自主研发,实现了从语言模型到多模态模型的全面布局。其模型在训练过程中突破了多项关键技术,支撑起了整个模型的高效训练。

关键观点4: 多模态模型的优势

除了语言模型,阶跃星辰的多模态模型也表现出强大的实力。例如,Step-1.5V模型在感知能力、推理能力和视频理解能力上都具有显著优势。此外,图像生成大模型Step-1X也能生成高质量的中国元素内容。

关键观点5: 智源研究院推出辩论平台FlagEval Debate

智源研究院推出的辩论平台FlagEval Debate通过模型辩论这一竞争机制,为大模型能力评估提供了新的度量标尺。该平台可以测试模型的信息理解、知识整合、逻辑推理、语言生成和对话能力等多项技能。


文章预览

衡宇 发自 凹非寺 量子位 | 公众号 QbitAI What??? 一直低调行事的国内初创公司,旗下模型悄悄地跃升成 国内第一、世界第五 (仅排在o1系列和Claude 3.5之后) ! 而且是 前十名中的唯一一家国产公司 。 (该榜上国产第二名是阿里开源的qwen2.5-72b-instruct,总榜第13) 。 而且它登上的这个排行榜LiveBench,虽然现在还没有大模型竞技场 (LMSYS Chatboat Arena) 那么广为人知,但资格杠杠的—— 图灵奖得主、Meta首席AI科学家杨立昆 (Yann LeCun) ,联合纽约大学等在今年6月推出。 号称是 “全球首个无法作弊的LLM基准测试” 。 而这次冷不丁杀出来的黑马,其实比较熟悉国内大模型竞争格局的朋友们已经猜到了—— Step系列,背后是大模型六小虎之一的 阶跃星辰 。 指令跟随高分拿下全球第一 在LiveBench榜单上,阶跃星辰自研的万亿参数语言大模型Step-2-16k-20241 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览