专栏名称: 智东西

智东西－聚焦智能变革，服务产业升级！作为智能行业新锐媒体，智东西专注五大领域：VR/AR；AI/机器人/无人机；智能汽车/智能出行；智能家居/物联网；智能穿戴/智能医疗，通过内容、活动、报告以及社群等方式助力“智能＋”时代的创业和产业升级。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

在“全球最难糊弄榜单”里，阶跃星辰拿下国产第一

智东西 · 公众号 · 科技媒体 · 2024-11-20 21:44

主要观点总结

文章介绍了国产大模型在基准测试中的表现，特别是阶跃星辰的大语言模型step-2-16k-202411在全球LLM基准测试LiveBench中取得的成绩。文章还详细描述了阶跃星辰的算法架构创新，包括MoE架构的设计，以及产品应用的情况。同时，文章也提到了国产大模型的未来和面临的挑战。

关键观点总结

关键观点1: 国产大模型在基准测试中的表现

阶跃星辰的大语言模型step-2-16k-202411在LiveBench榜单上位列全球第五、国产第一，特别是在指令跟随任务中排名第一。这是对中国大模型的肯定和激励。

关键观点2: 阶跃星辰的算法架构创新

阶跃星辰选择了从头开始训练模型的方式，通过部分专家共享参数、异构化专家设计等方式创新MoE架构设计。这种创新使得Step-2模型在综合能力上有所提升。

关键观点3: LiveBench的特点

LiveBench项目由Abacus.AI主导，其测试具有客观性、公平性和权威性。它通过每月更新题库、保证每个问题都有可验证的客观真实答案等方式，限制潜在的污染，防止大模型在回答时作弊。

关键观点4: 国产大模型的未来和挑战

虽然国产大模型已经取得了一定的成绩，但仍然面临很多挑战。如何持续提高模型的能力、保证模型的公平性和透明度、降低模型的能耗等问题都需要进一步研究和解决。阶跃星辰的技术路径可以为初创公司提供参考样本。

文章预览

国产大模型未来可期。作者 | 依婷编辑 | 漠影智东西11月20日报道，LLM基准测试项目LiveBench官网最新榜单显示，中国大模型“六小虎”之一阶跃星辰的大语言模型step-2-16k-202411，总评分位列全球第五、国产第一。同时，在六类别任务中，step-2-16k-202411的指令跟随（IF Average）评分排名第一，比OpenAI的o1-preview-2024-09-12更高。 ▲LiveBench榜单总评分前15名 LiveBench项目由Abacus.AI主导，图灵奖得主、Meta首席AI科学家杨立昆（Yann Lecun）参与其中，因其每月更新问题、评分体系客观，被业内称为“最难糊弄的LLMs基准测试”。成功挑战LiveBench的step-2-16k-202411，是阶跃星辰自研的万亿参数MoE大语言模型。在设计Step-2 MoE架构时，阶跃星辰放弃upcycle（向上复用）路径，选择从头开始训练，通过部分专家共享参数、异构化专家设计等方式创新MoE架构设计。今年3月， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新浪科技 · 【科学技术普及法修订草案二审 #拟规定每年9月为全国科普月#】科-20241222094352

10 小时前

新浪科技 · #92年超级牛散1个月赚了1.7亿# “92年”的超级牛散张宇持-20241221175000

昨天

上海创业直通车 · 【上海市】张江国家自主创新示范区专项发展资金拟支持项目公示

2 天前

上海创业直通车 · 【上海市】张江国家自主创新示范区专项发展资金拟支持项目公示

2 天前

新浪科技 · 【#相宜本草被曝违规添加有毒原料#】据网易财经，近期，有“吹哨人-20241219183000

3 天前

ZEALER · 马克·古尔曼：苹果公司拟在 2028 年推出可折叠 iPad

5 天前

任饭团Switch游戏 · 卡普空谈《怪物猎人荒野》不上NS。《黏黏世界2》新宣传片！

4 月前

医药经济报 · 辉瑞新型血友病长效疗法国内申报上市；FDA批准甲状旁腺功能减退激素替代疗法上市；奥赛康 EGFR 抑制剂新适应症上市申请获受理

4 月前

TechWeb · 腾讯音乐Q3稳健增长，总收入同比增长6.8%达70.2亿元

1 月前