今天看啥  ›  专栏  ›  AGI Hunt

重磅!腾讯「混元」亮剑,超越Llama 3.1?

AGI Hunt  · 公众号  ·  · 2024-11-06 00:00
    

文章预览

腾讯悄悄放出一枚重磅炸弹! 就在大家还在为各种大模型争论不休的时候,腾讯突然杀出一匹黑马——一个基于 1.5万亿合成数据 训练的超大规模MoE模型! 这个模型不仅参数量惊人, 性能更是直接超越了Meta的Llama 3.1 405B! 模型架构:MoE的魔力 腾讯这次推出的是一个 389B-A52B的MoE(混合专家)模型 。 什么意思呢?简单来说,这个模型有: 总参数量:236B 实际激活参数:21B 专家数量:160个 生成时激活专家:6个 这种结构的优势在于,它能在保持超大规模的同时, 大幅降低计算成本 。 想象一下,你有160位专家,但每次只需要6位出马,是不是很高效? 合成数据的威力 最让人惊讶的是这个模型的训练数据。 腾讯团队总共使用了 7万亿个token ,其中有 1.5万亿是合成数据 ! Philipp Schmid(@_philschmid) 对此评论道: 合成数据就是你所需要的一切?腾讯的新型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览