专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
今天看啥  ›  专栏  ›  AINLP

从Yuan2.0到Yuan2.0-M32

AINLP  · 公众号  · 科技自媒体  · 2024-07-13 22:01
    

主要观点总结

该文章介绍了Yuan2.0和Yuan2.0-M32技术报告的一些内容。Yuan2.0系列模型主要包括模型结构、数据、tokenizer和训练等方面的内容。Yuan2.0使用Localized Filtering-based Attention(LFA)机制,并优化了预训练数据的分布和训练方法。Yuan2.0-M32是基于Yuan2.0的扩展模型,引入了注意力机制的router,优化了模型结构和训练参数。文章还介绍了这两个模型的评测结果和一些技术细节。

关键观点总结

关键观点1: Yuan2.0的主要特点

使用Localized Filtering-based Attention(LFA)机制增强相邻token之间的关联性;预训练数据分布主要针对书籍、百科、专业知识、代码和数学相关内容;使用SentencePiece和基于Unigram的tokenizer训练方法;合并多个tokenizer词表并进行优化处理。

关键观点2: Yuan2.0-M32的主要特点

基于Yuan2.0结构扩展的MoE模型,引入注意力机制的router;在模型结构和训练参数上进行了优化;在code generation、math、MMLU、AI2 Reasoning Challenge等评测中表现出良好的效果。

关键观点3: 模型的技术细节和优化点

Yuan2.0使用单向卷积增强相邻token关联性;通过paralle的训练方法优化tokenizer;Yuan2.0-M32使用attention router解决路由专家间的关联性问题;在训练过程中使用NTK-aware的公式调整RoPE的base;优化预训练和微调的超参数。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照