专栏名称: AIGC新智界
区块链/数字货币/比特币中文资讯,创立于2011年,200多位专栏作入驻平台,国内最大区块链资讯原创基地(公众号【原创】认证),我们为以下合作伙伴供稿:火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网
目录
相关文章推荐
今天看啥  ›  专栏  ›  AIGC新智界

国产模型指令跟随全球第一!来自LeCun亲推的「最难作弊」大模型新榜单

AIGC新智界  · 公众号  · 比特币  · 2024-11-22 17:25
    

主要观点总结

国内初创公司阶跃星辰的AI模型Step系列在LiveBench排行榜上取得显著成绩,其中Step-2成为全球前五的唯一国产公司,展现了强大的语言生成能力和内容创作能力。该公司在语言模型和多模态模型方面都有出色的表现,并采用了MoE架构进行自主研发。同时,阶跃星辰还展示了其在图像生成和多模态理解方面的技术能力。另外,智源研究院推出的辩论平台FlagEval Debate为评估大模型能力提供了新的度量标尺。

关键观点总结

关键观点1: Step系列在LiveBench排行上获得亮眼成绩

Step-2在全球第五的位置中展现出强大的语言生成和内容创作能力,尤其在指令跟随方面表现出色。

关键观点2: 阶跃星辰的技术实力和创新

阶跃星辰采用MoE架构自主研发语言模型和多模态模型,展现了强大的技术实力和创新能力。

关键观点3: FlagEval Debate平台的特点和意义

该平台通过模型辩论的方式评估大模型的能力,包括信息理解、知识整合、逻辑推理等方面,提供了一个新的度量标尺。

关键观点4: 中国AIGC产业应用峰会的意义和内容

该峰会汇集了行业专家和领军企业,共同探讨AIGC领域的热点话题,展示了中国在该领域的最新进展和发展趋势。


文章预览

图片来源:由无界AI生成 What??? 一直低调行事的国内初创公司,旗下模型悄悄地跃升成国内第一、世界第五(仅排在o1系列和Claude 3.5之后)! 而且是前十名中的唯一一家国产公司。 (该榜上国产第二名是阿里开源的qwen2.5-72b-instruct,总榜第13)。 而且它登上的这个排行榜LiveBench,虽然现在还没有大模型竞技场(LMSYS Chatboat Arena)那么广为人知,但资格杠杠的—— 图灵奖得主、Meta首席AI科学家杨立昆(Yann LeCun),联合纽约大学等在今年6月推出。 号称是“全球首个无法作弊的LLM基准测试”。 而这次冷不丁杀出来的黑马,其实比较熟悉国内大模型竞争格局的朋友们已经猜到了—— Step系列,背后是大模型六小虎之一的阶跃星辰。 指令跟随高分拿下全球第一 在LiveBench榜单上,阶跃星辰自研的万亿参数语言大模型Step-2-16k-202411在Global Average上拿下57.68 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览