100B 的「跨级」跃升！元象发布最大 MoE 开源大模型，「高性能全家桶」系列全部免费

AI前线 · 公众号 · AI · 2024-09-14 12:45

文章预览

作者 | 华卫 9 月 13 日，元象 XVERSE 发布中国最大 MoE 开源模型：XVERSE-MoE-A36B。该模型总参数 255B，激活参数 36B，能达到 100B 模型的性能「跨级」跃升，同时训练时间减少 30%，推理性能提升 100%，使每 token 成本大幅下降。并且，元象「高性能全家桶」系列全部开源，无条件免费商用，海量中小企业、研究者和开发者能按需选择。 MoE（Mixture of Experts）是业界前沿的混合专家模型架构，将多个细分领域的专家模型组合成一个超级模型，打破了传统扩展定律（Scaling Law）的局限，可在扩大模型规模时，不显著增加训练和推理的计算成本，并保持模型性能最大化。出于这个原因，行业前沿模型包括谷歌 Gemini-1.5、OpenAI 的 GPT-4 、马斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。免费下载大模型 Hugging Face： https://huggingface.co/xverse/XVERSE-MoE-A36B 魔搭： https: ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【[59星]ThinkDiff：让扩散模型具备多模态上下文推理能-20250219195134

11 小时前

黄建同学 · 来自Cameron R. Wolfe 博士的深度解析，探讨了如何-20250219183047

13 小时前

人工智能那点事 · 热搜第一！70名AI公务员上岗！部分工作效率提升100倍！网友：铁饭碗还稳吗？

19 小时前

Datawhale · 厦大团队：大模型概念、技术与应用实践（140页PPT读懂大模型）

3 天前

Datawhale · 厦大团队：大模型概念、技术与应用实践（140页PPT读懂大模型）

3 天前

黄建同学 · 一个o1提示词示例：目标+返回数据要求+注意事项+背景内容，戳图-20250216163504

3 天前

洪观新闻 · “全是血印”，千万别试！每年都有人中招

1 月前

英式没品笑话百科 · 表情很自然 -20241230124152

1 月前

好机友 · 神图：我就说这世上有奥特曼

1 月前