腾讯开源“最大”大模型：如果你也相信MoE，那咱们就是好朋友

硅星人Pro · 公众号 · 科技媒体 · 2024-11-06 10:08

主要观点总结

腾讯在AI领域信奉开源和MoE（混合专家模型）策略。其开源了混元文生图模型等一系列模型。腾讯对MoE有深度信仰，并在生产环境中大规模使用AI算法。最新的MoE模型开源是混元Large模型，具有行业领先的参数规模和性能。腾讯通过实验寻找MoE的Scaling Law，并总结了技术秘方。同时，腾讯提供了配套设施和训练推理框架的开源，以壮大MoE的朋友圈。腾讯坚持自己的技术路线选择，并通过开源和生态建设聚集开发者。同一天，腾讯还开源了混元3D生成大模型。

关键观点总结

关键观点1: 腾讯信奉开源和MoE策略

腾讯在AI领域一直按照自己节奏开源了一系列模型，包括混元文生图模型等。对MoE有深度信仰，在生产环境中大规模使用AI算法。

关键观点2: 混元Large模型的开源

混元Large模型是至今全行业公开发布出来的最大参数的MoE架构的模型，具有领先的参数规模和性能。

关键观点3: 腾讯寻找MoE的Scaling Law

腾讯通过各种实验寻找MoE的Scaling Law，理解模型架构改变带来的不同。

关键观点4: 腾讯开源配套设施和技术秘方

此次开源提供了配套Hunyuan-Large模型的vLLM-backend推理框架，以及相关的训练脚本和模型实现。腾讯还提供了共享专家路由策略、高质量合成数据、长上下文处理能力等技术秘方。

关键观点5: 壮大MoE的朋友圈

腾讯通过全套服务来壮大MoE的朋友圈，包括开源大模型的工程框架和训练推理框架。

关键观点6: 腾讯的技术路线选择和生态建没

在技术路线选择上，腾讯坚持自己的路线，认为MoE是今天训练遇到规模化瓶颈时的技术选择，并通过开源和生态建设聚集开发者。

文章预览

作者｜王兆洋邮箱｜ wangzhaoyang@pingwest.com 腾讯在AI上信什么？一个是开源，一个是MoE （混合专家模型）。开源好理解，在大模型火热之后，加入战局的腾讯已经按照它自己的节奏开源了一系列模型，包括混元文生图模型等。某种程度上，ChatGPT是一个意外的发布，意味着所有人在大模型上都“落后”了，开源是追赶的一种方式，也是快速建立存在感吸引更多社区参与者来共建的方式。而腾讯对MoE的笃信，此前则并没太被外界意识到。事实上，这家从广告业务到推荐功能等，一直在生产环境里大规模使用着AI算法的公司，在技术上对MoE的笃信到了某种“信仰”的程度。许多细节此前并不太为人所知。比如，在生成式AI大模型火热之前，腾讯的许多模型就在使用MoE架构，包括2021年腾讯训练的T5模型，整个模型参数已经很大，不过与今天的MoE相比， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博