专栏名称: AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
今天看啥  ›  专栏  ›  AIGC Studio

腾讯发布业界最大开源MoE模型:Hunyuan-Large,具有3890亿参数,在长文本处理、常识推理、数学能力等方面表现出色。

AIGC Studio  · 公众号  ·  · 2024-11-07 00:00
    

文章预览

腾讯发布开源 Mixture of Experts(MoE)模型:腾讯混元大模型(Hunyuan-Large),这是目前在业界是规模最大的开源 Transformer 专家模型,具有 3890 亿参数,其中活跃的参数为 520 亿。 它专为提升自然语言处理、计算机视觉和科学任务而设计,在长文本处理、常识推理、数学能力等方面表现出色。 unset unset 相关链接 unset unset 官网:https://llm.hunyuan.tencent.com/ 模型下载: https://huggingface.co/tencent/Tencent-Hunyuan-Large 技术报告:https://arxiv.org/pdf/2411.02265 unset unset 模型介绍 unset unset 腾讯混元大模型(Hunyuan-Large)训练过程中使用了大量合成数据,使其可以学习到更丰富的语言表达方式。这种数据增强技术帮助 Hunyuan-Large 更好地泛化未见过的内容,提升对长文本的理解能力。 KV 缓存压缩(KV Cache Compression) 分组查询注意力(Grouped Query Attention, GQA):通过 GQA 技术将注意 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览