重磅！腾讯「混元」亮剑，超越Llama 3.1？

AGI Hunt · 公众号 · · 2024-11-06 00:00

文章预览

腾讯悄悄放出一枚重磅炸弹！就在大家还在为各种大模型争论不休的时候，腾讯突然杀出一匹黑马——一个基于 1.5万亿合成数据训练的超大规模MoE模型！这个模型不仅参数量惊人，性能更是直接超越了Meta的Llama 3.1 405B！模型架构：MoE的魔力腾讯这次推出的是一个 389B-A52B的MoE（混合专家）模型。什么意思呢？简单来说，这个模型有：总参数量：236B 实际激活参数：21B 专家数量：160个生成时激活专家：6个这种结构的优势在于，它能在保持超大规模的同时，大幅降低计算成本。想象一下，你有160位专家，但每次只需要6位出马，是不是很高效？合成数据的威力最让人惊讶的是这个模型的训练数据。腾讯团队总共使用了 7万亿个token ，其中有 1.5万亿是合成数据！ Philipp Schmid(@_philschmid) 对此评论道：合成数据就是你所需要的一切？腾讯的新型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博