专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

相关文章推荐

留下发布 · 3位萌娃家长组团送锦旗！超2000人次打卡的 ... · 21 小时前

花果科技 · 苹果年度最猛优惠来了，买一送一 · 21 小时前

NBS十八生活 · 热搜第一！坐飞机有大变化！ · 22 小时前

港科技 · 终于，手机可拆卸电池杀回来了！包括苹果 ... · 昨天

全网快资讯 · 网传射阳某国语学校与校外培训机构合作搞补课，真假？ · 2 天前

今天看啥 › 专栏 › AINLP

从Yuan2.0到Yuan2.0-M32

AINLP · 公众号 · 科技自媒体 · 2024-07-13 22:01

主要观点总结

该文章介绍了Yuan2.0和Yuan2.0-M32技术报告的一些内容。Yuan2.0系列模型主要包括模型结构、数据、tokenizer和训练等方面的内容。Yuan2.0使用Localized Filtering-based Attention（LFA）机制，并优化了预训练数据的分布和训练方法。Yuan2.0-M32是基于Yuan2.0的扩展模型，引入了注意力机制的router，优化了模型结构和训练参数。文章还介绍了这两个模型的评测结果和一些技术细节。

关键观点总结

关键观点1: Yuan2.0的主要特点

使用Localized Filtering-based Attention（LFA）机制增强相邻token之间的关联性；预训练数据分布主要针对书籍、百科、专业知识、代码和数学相关内容；使用SentencePiece和基于Unigram的tokenizer训练方法；合并多个tokenizer词表并进行优化处理。

关键观点2: Yuan2.0-M32的主要特点

基于Yuan2.0结构扩展的MoE模型，引入注意力机制的router；在模型结构和训练参数上进行了优化；在code generation、math、MMLU、AI2 Reasoning Challenge等评测中表现出良好的效果。

关键观点3: 模型的技术细节和优化点

Yuan2.0使用单向卷积增强相邻token关联性；通过paralle的训练方法优化tokenizer；Yuan2.0-M32使用attention router解决路由专家间的关联性问题；在训练过程中使用NTK-aware的公式调整RoPE的base；优化预训练和微调的超参数。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博