主要观点总结
本文介绍了阶跃星辰发布的最新模型Step Reasoner mini,该模型是阶跃星辰Step系列模型家族的首个推理模型。Step R-mini擅长主动进行规划、尝试和反思,能够通过慢思考和反复验证的逻辑机制为用户提供准确可靠的回复。它在AIME 2024和Math500这两个数学基准上达到了SOTA水平,并且写代码的能力也很不错。此外,阶跃星辰还在打造能够进行多模态推理的视觉推理模型。
关键观点总结
关键观点1: Step Reasoner mini是阶跃星辰Step系列的首个推理模型。
该模型擅长主动规划、尝试和反思,具有慢思考和反复验证的能力。
关键观点2: Step R-mini在数学和代码方面表现出色。
它在AIME 2024和Math500基准上达到了SOTA水平,且在LiveCodeBench代码任务上超过了o1-preview。
关键观点3: 新模型的"RL"含量很高,泛化性比较好。
阶跃星辰在数据质量、测试时计算、模型大小等方面进行了scaling,验证了Scaling Law的有效性。
关键观点4: 阶跃星辰还在打造多模态推理的视觉推理模型。
该模型能够在图上进行推理,而不仅仅是看着图却在文字领域进行推理。
文章预览
机器之心报道 机器之心编辑部 这是阶跃星辰 Step 系列模型家族的首个推理模型。 类似 OpenAI o1 的推理模型在国内终于卷起来了。 刚刚,国产大模型「六小虎」成员阶跃星辰发布了最新一代模型 ——Step Reasoner mini(简称「Step R-mini」)。这是阶跃星辰 Step 系列模型家族的首个推理模型。 体验地址:https://yuewen.cn 新模型擅长主动进行规划、尝试和反思,能通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。 而且,它既擅长通过超长推理能力,解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。或者按阶跃星辰自己的说法是「文理兼修」。 根据阶跃星辰公布的基准测试数据,Step R-mini 在 AIME 2024 和 Math500 这两个数学基准上均达到了 SOTA 水平,其中在 Math500 上更是比 o1-mini 还多 2 分。Step Reasoner mini 写代码的能力也很不
………………………………