文章预览
前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、大语言模型、预训练的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. 腾讯的Hunyuan-Large:目前最大的开源Transformer混合专家模型 标题: Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent 机构: 腾讯 关键词: Hunyuan-Large、混合专家模型、Transformer 作者: Xingwu Sun, Yanfeng Chen, Yiqing Huang 分析: 在这篇论文中,该论文介绍了Hunyuan-Large,它是目前最大的开源Transformer基混合专家模型,拥有3890亿个参数和520亿个激活参数,能够处理高达256K的标记。该论文在各种基准测试中对Hunyuan-Large的优越性能进行了全面的评估,包括语言理解和生成、逻辑推理、数学问题解决、编码、长上下文以及汇总任务,在这些任务中,它优于LLama3.1-70B并与显著更大的LLama3.1-405B模型表
………………………………