专栏名称: 智东西
智东西-聚焦智能变革,服务产业升级!作为智能行业新锐媒体,智东西专注五大领域:VR/AR;AI/机器人/无人机;智能汽车/智能出行;智能家居/物联网;智能穿戴/智能医疗,通过内容、活动、报告以及社群等方式助力“智能+”时代的创业和产业升级。
今天看啥  ›  专栏  ›  智东西

在“全球最难糊弄榜单”里,阶跃星辰拿下国产第一

智东西  · 公众号  · 科技媒体  · 2024-11-20 21:44
    

主要观点总结

文章介绍了国产大模型在基准测试中的表现,特别是阶跃星辰的大语言模型step-2-16k-202411在全球LLM基准测试LiveBench中取得的成绩。文章还详细描述了阶跃星辰的算法架构创新,包括MoE架构的设计,以及产品应用的情况。同时,文章也提到了国产大模型的未来和面临的挑战。

关键观点总结

关键观点1: 国产大模型在基准测试中的表现

阶跃星辰的大语言模型step-2-16k-202411在LiveBench榜单上位列全球第五、国产第一,特别是在指令跟随任务中排名第一。这是对中国大模型的肯定和激励。

关键观点2: 阶跃星辰的算法架构创新

阶跃星辰选择了从头开始训练模型的方式,通过部分专家共享参数、异构化专家设计等方式创新MoE架构设计。这种创新使得Step-2模型在综合能力上有所提升。

关键观点3: LiveBench的特点

LiveBench项目由Abacus.AI主导,其测试具有客观性、公平性和权威性。它通过每月更新题库、保证每个问题都有可验证的客观真实答案等方式,限制潜在的污染,防止大模型在回答时作弊。

关键观点4: 国产大模型的未来和挑战

虽然国产大模型已经取得了一定的成绩,但仍然面临很多挑战。如何持续提高模型的能力、保证模型的公平性和透明度、降低模型的能耗等问题都需要进一步研究和解决。阶跃星辰的技术路径可以为初创公司提供参考样本。


文章预览

国产大模型未来可期。 作者 |   依婷 编辑 |   漠影 智东西11月20日报道,LLM基准测试项目LiveBench官网最新榜单显示,中国大模型“六小虎”之一阶跃星辰的大语言模型step-2-16k-202411,总评分位列全球第五、国产第一。同时,在六类别任务中,step-2-16k-202411的指令跟随(IF Average)评分排名第一,比OpenAI的o1-preview-2024-09-12更高。 ▲LiveBench榜单总评分前15名 LiveBench项目由Abacus.AI主导,图灵奖得主、Meta首席AI科学家杨立昆(Yann Lecun)参与其中,因其每月更新问题、评分体系客观,被业内称为“最难糊弄的LLMs基准测试”。 成功挑战LiveBench的step-2-16k-202411,是阶跃星辰自研的万亿参数MoE大语言模型。在设计Step-2 MoE架构时,阶跃星辰放弃upcycle(向上复用)路径,选择从头开始训练,通过部分专家共享参数、异构化专家设计等方式创新MoE架构设计。今年3月, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览