主要观点总结
腾讯在AI领域信奉开源和MoE(混合专家模型)策略。其开源了混元文生图模型等一系列模型。腾讯对MoE有深度信仰,并在生产环境中大规模使用AI算法。最新的MoE模型开源是混元Large模型,具有行业领先的参数规模和性能。腾讯通过实验寻找MoE的Scaling Law,并总结了技术秘方。同时,腾讯提供了配套设施和训练推理框架的开源,以壮大MoE的朋友圈。腾讯坚持自己的技术路线选择,并通过开源和生态建设聚集开发者。同一天,腾讯还开源了混元3D生成大模型。
关键观点总结
关键观点1: 腾讯信奉开源和MoE策略
腾讯在AI领域一直按照自己节奏开源了一系列模型,包括混元文生图模型等。对MoE有深度信仰,在生产环境中大规模使用AI算法。
关键观点2: 混元Large模型的开源
混元Large模型是至今全行业公开发布出来的最大参数的MoE架构的模型,具有领先的参数规模和性能。
关键观点3: 腾讯寻找MoE的Scaling Law
腾讯通过各种实验寻找MoE的Scaling Law,理解模型架构改变带来的不同。
关键观点4: 腾讯开源配套设施和技术秘方
此次开源提供了配套Hunyuan-Large模型的vLLM-backend推理框架,以及相关的训练脚本和模型实现。腾讯还提供了共享专家路由策略、高质量合成数据、长上下文处理能力等技术秘方。
关键观点5: 壮大MoE的朋友圈
腾讯通过全套服务来壮大MoE的朋友圈,包括开源大模型的工程框架和训练推理框架。
关键观点6: 腾讯的技术路线选择和生态建没
在技术路线选择上,腾讯坚持自己的路线,认为MoE是今天训练遇到规模化瓶颈时的技术选择,并通过开源和生态建设聚集开发者。
文章预览
作者 | 王兆洋 邮箱 | wangzhaoyang@pingwest.com 腾讯在AI上信什么? 一个是开源,一个是MoE (混合专家模型) 。 开源好理解,在大模型火热之后,加入战局的腾讯已经按照它自己的节奏开源了一系列模型,包括混元文生图模型等。 某种程度上,ChatGPT是一个意外的发布,意味着所有人在大模型上都“落后”了,开源是追赶的一种方式,也是快速建立存在感吸引更多社区参与者来共建的方式。 而腾讯对MoE的笃信,此前则并没太被外界意识到。事实上,这家从广告业务到推荐功能等,一直在生产环境里大规模使用着AI算法的公司,在技术上对MoE的笃信到了某种“信仰”的程度。 许多细节此前并不太为人所知。比如,在生成式AI大模型火热之前,腾讯的许多模型就在使用MoE架构,包括2021年腾讯训练的T5模型,整个模型参数已经很大,不过与今天的MoE相比,
………………………………