主要观点总结
国际权威榜单LiveBench发布最新模型能力榜单,阶跃星辰自研的万亿参数语言大模型Step-2国产基座大模型第一。阶跃星辰在MoE架构方面选择完全从零构建和训练,带来更高的模型性能上限。除了语言大模型Step-2,阶跃星辰也在多模态方面展开探索,发布了Step-1.5V多模态理解大模型和Step-1X图像生成大模型。其产品化步伐同样迅速,推出了智能助手“跃问”和AI开放世界平台“冒泡鸭”。大模型技术曲线的突破,无论是多模态能力、杀手级AI产品的出现,还是对强化学习训练的更好运用,最终都将取决于基础模型的能力。阶跃星辰的Step-2和整个Step系列模型,或许将成为其撬动世界的支点。
关键观点总结
关键观点1: 阶跃星辰的Step-2语言大模型在LiveBench榜单中位列国产基座大模型第一。
LiveBench是由图灵奖得主杨立昆联合推出的权威大模型测评基准,Step-2在该榜单中的表现体现了其强大的模型能力。
关键观点2: 阶跃星辰选择完全从零构建和训练MoE架构的模型。
这种策略带来了更高的模型性能上限,允许开发者设计更为复杂和多样化的专家网络,使每个专家网络都能学习到更加独特和专门化的特征。
关键观点3: 阶跃星辰除了语言大模型Step-2外,还在多模态方面展开探索。
发布了Step-1.5V多模态理解大模型和Step-1X图像生成大模型,展示了其在多模态领域的强大实力。
关键观点4: 阶跃星辰的产品化步伐迅速。
推出了智能助手“跃问”和AI开放世界平台“冒泡鸭”,展示了其将技术应用于实际产品的能力。
关键观点5: 大模型的未来发展方向将取决于基础模型的能力。
无论是多模态能力、杀手级AI产品的出现,还是对强化学习训练的更好运用,都需要基础模型的强大能力作为支撑。
文章预览
平时不声不响,一出街就炸场 作者 | 甘德 国际权威榜单 LiveBench 官网近日发布了一份最新的模型能力榜单。阶跃星辰自研的万亿参数语言大模型 Step-2 在榜单中位列国产基座大模型第一,成绩逼近 OpenAI 的 o1-mini-2024-09-12,超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等国际主流模型,是唯一进入榜单前十名的中国语言大模型,位列全球第五。 虽然大模型的评测榜单已经泛滥,但 LiveBench 却是实打实的大有来头。 LiveBench 是由图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)联合 Abacus.AI、纽约大学等机构推出的大模型测评基准。LiveBench 从包括数学、推理、编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估。之所以名字里有个「live」,就是因为这个榜单采用了新颖的数据来源并保持每月更新,这杜绝了大模型通过预训练和微调作弊的
………………………………