专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

从Yuan2.0到Yuan2.0-M32

AINLP  · 公众号  · 科技自媒体  · 2024-07-13 22:01
    

主要观点总结

该文章介绍了Yuan2.0和Yuan2.0-M32技术报告的一些内容。Yuan2.0系列模型主要包括模型结构、数据、tokenizer和训练等方面的内容。Yuan2.0使用Localized Filtering-based Attention(LFA)机制,并优化了预训练数据的分布和训练方法。Yuan2.0-M32是基于Yuan2.0的扩展模型,引入了注意力机制的router,优化了模型结构和训练参数。文章还介绍了这两个模型的评测结果和一些技术细节。

关键观点总结

关键观点1: Yuan2.0的主要特点

使用Localized Filtering-based Attention(LFA)机制增强相邻token之间的关联性;预训练数据分布主要针对书籍、百科、专业知识、代码和数学相关内容;使用SentencePiece和基于Unigram的tokenizer训练方法;合并多个tokenizer词表并进行优化处理。

关键观点2: Yuan2.0-M32的主要特点

基于Yuan2.0结构扩展的MoE模型,引入注意力机制的router;在模型结构和训练参数上进行了优化;在code generation、math、MMLU、AI2 Reasoning Challenge等评测中表现出良好的效果。

关键观点3: 模型的技术细节和优化点

Yuan2.0使用单向卷积增强相邻token关联性;通过paralle的训练方法优化tokenizer;Yuan2.0-M32使用attention router解决路由专家间的关联性问题;在训练过程中使用NTK-aware的公式调整RoPE的base;优化预训练和微调的超参数。


文章预览

整理下Yuan2.0和Yuan2.0-M32技术报告的一些内容。 1.Yuan2.0 Yuan2.0发布于23年11月,系列模型有3个规模: 1.1.模型 通常的self-attention会计算token两两之间的关联性,但是没有显式加入“更近的token有更高重要性”这样的local dependency机制,按原文说法,有“short of neighbouring local associations of tokens”的问题。 于是Yuan2.0把attention修改成Localized Filtering-based Attention(LFA),通过增加两个一维的convolution来增强相邻token之间的关联性,结构如下图 为了防止训练时卷积泄露未来的信息,这里的convolution是单向的,只能往前看: 和经典的Attention以及Attention with EMA对比,LFA在效果上更好,在模型参数的增加和计算性能上的损耗也相比EMA更小。具体的对比数据如下 EMA是《Mega: moving average equipped gated attention》所使用的方法,目前使用EMA的模型似乎不多。 1.2.数据 Yuan2.0的预训练数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览