专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

万字长文细说腾讯发布史上最大开源Moe：Hunyuan-Large(详解版，建议收藏)

AINLP · 公众号 · · 2024-11-10 23:00

文章预览

简介预训练数据和分词器模型结构预训练后训练监督微调SFT 基于人类反馈的强化学习模型评估预训练模型评估后训练模型评估长上下文能力评估总结 1 简介 Hunyuan-Large是目前(2024年11月)规模最大的开源Transformer混合专家模型(Moe)。该模型总共拥有3890亿个参数和520亿个激活参数，能够处理长达256K个token的输入。混元官方在各种基准测试上对Hunyuan-Large进行了全面评估，包括语言理解和生成、逻辑推理、数学问题解决、编程、长上下文和综合任务，在这些任务中，Hunyuan-Large都优于LLama3.1-70B，并展现出与规模更大的LLama3.1-405B模型相当的性能。Hunyuan-Large的主要贡献包括: 大规模的数据合成，且比之前文献多出数个数量级混合专家路由策略 KV缓存压缩技术专家特定的学习率策略混合专家模型的scaling laws和学习率适配策略混元团队表示将发布Hunyuan-Larg ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博