文章预览
作者:Kevin吴嘉文,新加坡管理大学 信息技术硕士 原文:https://zhuanlan.zhihu.com/p/711294388 在本文中,梳理了 Mistral 系列模型(Mistral 7B, Mixtral 8x7B,Mixtral 8x22B,Mistral Nemo, Mistral Large 2)的关键信息,包括它们的主要特点、亮点以及相关资源链接。 Mistral 7B 官方博客:https://mistral.ai/news/announcing-mistral-7b/ mistral 7B 论文:https://arxiv.org/abs/2310.06825 Mistral 7B模型的亮点包括: Sliding Window Attention Mistral 采用的 window size 为 4096,而后一共有 32 层layer,那么采用 SWA 之后,理论上在进行 attention 的时候,理论上可以收集到约 131K tokens 的信息。(虽然论文里提到的 window size 是 4096,但 官方提供的 huggingface 上的权重 [1] 中 max_position_embeddings 为 32768,且在新一点的版本中,比如 mistral-7b-instruct-v0.2 [2] ,都不采用 sliding window 了) 由于代用了固定的 attention 窗口大小,因
………………………………