权威榜单登顶国内第一，阶跃星辰Step-2是如何炼成的

极客公园 · 公众号 · 科技媒体 · 2024-11-20 19:20

主要观点总结

国际权威榜单LiveBench发布最新模型能力榜单，阶跃星辰自研的万亿参数语言大模型Step-2国产基座大模型第一。阶跃星辰在MoE架构方面选择完全从零构建和训练，带来更高的模型性能上限。除了语言大模型Step-2，阶跃星辰也在多模态方面展开探索，发布了Step-1.5V多模态理解大模型和Step-1X图像生成大模型。其产品化步伐同样迅速，推出了智能助手“跃问”和AI开放世界平台“冒泡鸭”。大模型技术曲线的突破，无论是多模态能力、杀手级AI产品的出现，还是对强化学习训练的更好运用，最终都将取决于基础模型的能力。阶跃星辰的Step-2和整个Step系列模型，或许将成为其撬动世界的支点。

关键观点总结

关键观点1: 阶跃星辰的Step-2语言大模型在LiveBench榜单中位列国产基座大模型第一。

LiveBench是由图灵奖得主杨立昆联合推出的权威大模型测评基准，Step-2在该榜单中的表现体现了其强大的模型能力。

关键观点2: 阶跃星辰选择完全从零构建和训练MoE架构的模型。

这种策略带来了更高的模型性能上限，允许开发者设计更为复杂和多样化的专家网络，使每个专家网络都能学习到更加独特和专门化的特征。

关键观点3: 阶跃星辰除了语言大模型Step-2外，还在多模态方面展开探索。

发布了Step-1.5V多模态理解大模型和Step-1X图像生成大模型，展示了其在多模态领域的强大实力。

关键观点4: 阶跃星辰的产品化步伐迅速。

推出了智能助手“跃问”和AI开放世界平台“冒泡鸭”，展示了其将技术应用于实际产品的能力。

关键观点5: 大模型的未来发展方向将取决于基础模型的能力。

无论是多模态能力、杀手级AI产品的出现，还是对强化学习训练的更好运用，都需要基础模型的强大能力作为支撑。

文章预览

平时不声不响，一出街就炸场作者 | 甘德国际权威榜单 LiveBench 官网近日发布了一份最新的模型能力榜单。阶跃星辰自研的万亿参数语言大模型 Step-2 在榜单中位列国产基座大模型第一，成绩逼近 OpenAI 的 o1-mini-2024-09-12，超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等国际主流模型，是唯一进入榜单前十名的中国语言大模型，位列全球第五。虽然大模型的评测榜单已经泛滥，但 LiveBench 却是实打实的大有来头。 LiveBench 是由图灵奖得主、Meta 首席 AI 科学家杨立昆（Yann LeCun）联合 Abacus.AI、纽约大学等机构推出的大模型测评基准。LiveBench 从包括数学、推理、编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估。之所以名字里有个「live」，就是因为这个榜单采用了新颖的数据来源并保持每月更新，这杜绝了大模型通过预训练和微调作弊的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博