专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

腾讯最新万亿参数异构MoE上线，技术细节首次曝光！权威评测国内第一，直逼GPT-4o

新智元 · 公众号 · AI · 2024-09-12 14:14

主要观点总结

腾讯推出新一代旗舰大模型混元Turbo，采用分层异构MoE架构，性能位于国内第一梯队。混元Turbo在Pretrain和Postrain阶段进行优化，通过技术解读展示了模型升级的秘密。模型在文本创作、数学和逻辑推理能力上专项强化，并优化了推理部署成本和推理时延。此外，混元Turbo还支持AI搜索联网插件，具备精准阅读理解能力的SearchGPT用于AI深度问答。底层建立在腾讯自研的Angel机器学习平台和算力基础设施上，支持FP8量化压缩和定制算子加速推理性能。

关键观点总结

关键观点1: 混元Turbo采用分层异构MoE架构，性能位于国内第一梯队。

腾讯推出新一代旗舰大模型混元Turbo，其采用分层异构MoE架构，性能在业界公认的benchmark指标上处于领先地位。相较上一代模型，混元Turbo在参数规模和效果上都有了显著提升。

关键观点2: 混元Turbo在Pretrain和Postrain阶段进行优化。

混元Turbo通过Pretrain和Postrain阶段的优化，提高了模型效果。在Pretrain阶段，采用Scaling Law秘诀和新的异构MoE结构来提高模型效果；在Postrain阶段，通过自研的混元CriticModel和RewardModel，并采用离线数据和在线采样结合的强化学习策略来提升模型性能。

关键观点3: 混元Turbo专项强化了文本创作、数学和逻辑推理能力。

针对当前大模型在文本创作、数学和逻辑推理方面的挑战，混元Turbo进行了专项强化。通过优化训练数据和强化学习技术，提高了模型在数学和逻辑推理能力方面的表现。同时，针对高质量文本创作，引入了专家标注团队和创作指令约束体系。

关键观点4: 混元Turbo支持AI搜索联网插件和精准阅读理解能力的SearchGPT。

混元Turbo除支持各类大模型能力外，还支持AI搜索联网插件。通过整合腾讯的内容生态和搜索能力，实现了更精准的搜索和AI深度问答功能。此外，基于混元通用大模型底座的SearchGPT具备精准阅读理解能力。

关键观点5: 底层建立在腾讯自研的Angel机器学习平台和算力基础设施上。

惊艳的模型效果离不开底层算法和平台的支持。腾讯混元大模型建立在腾讯全面自研的Angel机器学习平台和强大的算力基础设施之上。面对万亿级MoE模型的挑战，通过引入大BatchSize训练、FP8低精度训练等优化策略，提高了训练性能和降低了成本。

文章预览

新智元报道编辑：桃子好困【新智元导读】鹅厂新一代旗舰大模型混元Turbo技术报告首次曝光。模型采用全新分层异构的MoE架构，总参数达万亿级别，性能仅次于GPT-4o，位列国内第一梯队。近期，腾讯混元推出新一代旗舰大模型——混元Turbo。作为国内率先采用MoE结构大模型的公司，腾讯继续在这一技术路线上进行技术创新。相较上一代混元Pro的同构MoE大模型结构，混元Turbo采用了全新的分层异构MoE结构，在参数总规模上依然保持万亿级。公开信息显示，当前混元Turbo模型在业界公认的benchmark指标上处于国内行业领先地位，与国外头部模型如GPT-4o等相比也处于第一梯队。另外，在刚刚发布的国内第三方权威评测机构评测中，混元Turbo模型位列国内第一。混元Turbo是如何做到如此快速的进步？背后技术细节首公开我们拿到了混元Turbo的技 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博