从Mistral Nemo到Large2 核心技术详解

包包算法笔记 · 公众号 · · 2024-07-31 10:00

文章预览

作者：Kevin吴嘉文，新加坡管理大学信息技术硕士原文：https://zhuanlan.zhihu.com/p/711294388 在本文中，梳理了 Mistral 系列模型（Mistral 7B， Mixtral 8x7B，Mixtral 8x22B，Mistral Nemo, Mistral Large 2）的关键信息，包括它们的主要特点、亮点以及相关资源链接。 Mistral 7B 官方博客：https://mistral.ai/news/announcing-mistral-7b/ mistral 7B 论文：https://arxiv.org/abs/2310.06825 Mistral 7B模型的亮点包括： Sliding Window Attention Mistral 采用的 window size 为 4096，而后一共有 32 层layer，那么采用 SWA 之后，理论上在进行 attention 的时候，理论上可以收集到约 131K tokens 的信息。(虽然论文里提到的 window size 是 4096，但官方提供的 huggingface 上的权重 [1] 中 max_position_embeddings 为 32768，且在新一点的版本中，比如 mistral-7b-instruct-v0.2 [2] ，都不采用 sliding window 了) 由于代用了固定的 attention 窗口大小，因 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

文艺研究 · 会议征文︱艺术与记忆：第五届艺术理论前沿论坛

11 月前

HIS1963 · 回复@铜城老农: 我们之间至少有二个不同。一是你认为大资金在操控-20240704084935

10 月前

消金界 · 这家上市小贷上半年净利同比下降98%

9 月前

汽车商业评论 · 大众或将关闭德国工厂

8 月前

广州淘房志 · 珑曜上城130%实用率狂抢刚需！白云罗冲围拆迁补偿3.85万/㎡！

2 月前