专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
今天看啥  ›  专栏  ›  包包算法笔记

从Mistral Nemo到Large2 核心技术详解

包包算法笔记  · 公众号  ·  · 2024-07-31 10:00
    

文章预览

作者:Kevin吴嘉文,新加坡管理大学 信息技术硕士 原文:https://zhuanlan.zhihu.com/p/711294388 在本文中,梳理了 Mistral 系列模型(Mistral 7B, Mixtral 8x7B,Mixtral 8x22B,Mistral Nemo, Mistral Large 2)的关键信息,包括它们的主要特点、亮点以及相关资源链接。 Mistral 7B 官方博客:https://mistral.ai/news/announcing-mistral-7b/ mistral 7B 论文:https://arxiv.org/abs/2310.06825 Mistral 7B模型的亮点包括: Sliding Window Attention Mistral 采用的 window size 为 4096,而后一共有 32 层layer,那么采用 SWA 之后,理论上在进行 attention 的时候,理论上可以收集到约 131K tokens 的信息。(虽然论文里提到的 window size 是 4096,但 官方提供的  huggingface 上的权重 [1]  中 max_position_embeddings 为 32768,且在新一点的版本中,比如  mistral-7b-instruct-v0.2 [2]  ,都不采用 sliding window 了) 由于代用了固定的 attention 窗口大小,因 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览