这里是AI领域学习交流的平台!分享人工智能、机器学习、深度学习、计算机视觉、自然语言处理、算法原理、科技前沿、行业动态等,为您提供最有价值的知识和资讯。
今天看啥  ›  专栏  ›  人工智能与算法学习

重磅!腾讯宣布推出开源大型MoE模型:Tencent Hunyuan-Large

人工智能与算法学习  · 公众号  ·  · 2024-11-05 19:15
    

文章预览

来源:NLP前沿 腾讯刚刚开源宇宙最强Moe模型,人性化的提供了推理 & 训练框架 github:   https://github.com/Tencent/Tencent-Hunyuan-Large huggingface: https://huggingface.co/tencent/Tencent-Hunyuan-Large 优势 高质量合成数据:通过合成数据增强训练,Hunyuan-Large能够学习到更丰富的表示,处理长上下文输入,并更好地泛化到未见数据 KV缓存压缩:采用分组查询注意力(GQA)和跨层注意力(CLA)策略,显著减少了KV缓存的内存占用和计算开销,提高了推理吞吐 专家特定学习率缩放:为不同专家设置不同的学习率,确保每个子模型都能有效地从数据中学习,并为整体性能做出贡献 长上下文处理能力:预训练模型支持高达256K的文本序列,Instruct模型支持128K的文本序列,显著提升了长上下文任务的处理能力 广泛的基准测试:在多种语言和任务上进行广泛实验,验证了Hunyuan-Large的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览