专栏名称: AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

腾讯发布业界最大开源MoE模型：Hunyuan-Large，具有3890亿参数，在长文本处理、常识推理、数学能力等方面表现出色。

AIGC Studio · 公众号 · · 2024-11-07 00:00

文章预览

腾讯发布开源 Mixture of Experts（MoE）模型：腾讯混元大模型（Hunyuan-Large），这是目前在业界是规模最大的开源 Transformer 专家模型，具有 3890 亿参数，其中活跃的参数为 520 亿。它专为提升自然语言处理、计算机视觉和科学任务而设计，在长文本处理、常识推理、数学能力等方面表现出色。 unset unset 相关链接 unset unset 官网：https://llm.hunyuan.tencent.com/ 模型下载： https://huggingface.co/tencent/Tencent-Hunyuan-Large 技术报告：https://arxiv.org/pdf/2411.02265 unset unset 模型介绍 unset unset 腾讯混元大模型（Hunyuan-Large）训练过程中使用了大量合成数据，使其可以学习到更丰富的语言表达方式。这种数据增强技术帮助 Hunyuan-Large 更好地泛化未见过的内容，提升对长文本的理解能力。 KV 缓存压缩（KV Cache Compression）分组查询注意力（Grouped Query Attention, GQA）：通过 GQA 技术将注意 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博