专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

万字长文细说腾讯发布史上最大开源Moe:Hunyuan-Large(详解版,建议收藏)

AINLP  · 公众号  ·  · 2024-11-10 23:00

文章预览

简介 预训练 数据和分词器 模型结构 预训练 后训练 监督微调SFT 基于人类反馈的强化学习 模型评估 预训练模型评估 后训练模型评估 长上下文能力评估 总结 1 简介 Hunyuan-Large是目前(2024年11月)规模最大的开源Transformer混合专家模型(Moe)。该模型总共拥有3890亿个参数和520亿个激活参数,能够处理长达256K个token的输入。混元官方在各种基准测试上对Hunyuan-Large进行了全面评估,包括语言理解和生成、逻辑推理、数学问题解决、编程、长上下文和综合任务,在这些任务中,Hunyuan-Large都优于LLama3.1-70B,并展现出与规模更大的LLama3.1-405B模型相当的性能。Hunyuan-Large的主要贡献包括: 大规模的数据合成,且比之前文献多出数个数量级 混合专家路由策略 KV缓存压缩技术 专家特定的学习率策略 混合专家模型的scaling laws和学习率适配策略 混元团队表示将发布Hunyuan-Larg ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览