重磅！腾讯宣布推出开源大型MoE模型：Tencent Hunyuan-Large

人工智能与算法学习 · 公众号 · · 2024-11-05 19:15

文章预览

来源：NLP前沿腾讯刚刚开源宇宙最强Moe模型，人性化的提供了推理 & 训练框架 github: https://github.com/Tencent/Tencent-Hunyuan-Large huggingface： https://huggingface.co/tencent/Tencent-Hunyuan-Large 优势高质量合成数据：通过合成数据增强训练，Hunyuan-Large能够学习到更丰富的表示，处理长上下文输入，并更好地泛化到未见数据 KV缓存压缩：采用分组查询注意力（GQA）和跨层注意力（CLA）策略，显著减少了KV缓存的内存占用和计算开销，提高了推理吞吐专家特定学习率缩放：为不同专家设置不同的学习率，确保每个子模型都能有效地从数据中学习，并为整体性能做出贡献长上下文处理能力：预训练模型支持高达256K的文本序列，Instruct模型支持128K的文本序列，显著提升了长上下文任务的处理能力广泛的基准测试：在多种语言和任务上进行广泛实验，验证了Hunyuan-Large的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博