主要观点总结
该文章介绍了Yuan2.0和Yuan2.0-M32技术报告的一些内容。Yuan2.0系列模型主要包括模型结构、数据、tokenizer和训练等方面的内容。Yuan2.0使用Localized Filtering-based Attention(LFA)机制,并优化了预训练数据的分布和训练方法。Yuan2.0-M32是基于Yuan2.0的扩展模型,引入了注意力机制的router,优化了模型结构和训练参数。文章还介绍了这两个模型的评测结果和一些技术细节。
关键观点总结
关键观点1: Yuan2.0的主要特点
使用Localized Filtering-based Attention(LFA)机制增强相邻token之间的关联性;预训练数据分布主要针对书籍、百科、专业知识、代码和数学相关内容;使用SentencePiece和基于Unigram的tokenizer训练方法;合并多个tokenizer词表并进行优化处理。
关键观点2: Yuan2.0-M32的主要特点
基于Yuan2.0结构扩展的MoE模型,引入注意力机制的router;在模型结构和训练参数上进行了优化;在code generation、math、MMLU、AI2 Reasoning Challenge等评测中表现出良好的效果。
关键观点3: 模型的技术细节和优化点
Yuan2.0使用单向卷积增强相邻token关联性;通过paralle的训练方法优化tokenizer;Yuan2.0-M32使用attention router解决路由专家间的关联性问题;在训练过程中使用NTK-aware的公式调整RoPE的base;优化预训练和微调的超参数。
文章预览
整理下Yuan2.0和Yuan2.0-M32技术报告的一些内容。 1.Yuan2.0 Yuan2.0发布于23年11月,系列模型有3个规模: 1.1.模型 通常的self-attention会计算token两两之间的关联性,但是没有显式加入“更近的token有更高重要性”这样的local dependency机制,按原文说法,有“short of neighbouring local associations of tokens”的问题。 于是Yuan2.0把attention修改成Localized Filtering-based Attention(LFA),通过增加两个一维的convolution来增强相邻token之间的关联性,结构如下图 为了防止训练时卷积泄露未来的信息,这里的convolution是单向的,只能往前看: 和经典的Attention以及Attention with EMA对比,LFA在效果上更好,在模型参数的增加和计算性能上的损耗也相比EMA更小。具体的对比数据如下 EMA是《Mega: moving average equipped gated attention》所使用的方法,目前使用EMA的模型似乎不多。 1.2.数据 Yuan2.0的预训练数
………………………………