谢谢微软，又又又Open了！一口气发布3款Phi-3.5新模型，领先Llama3.1和谷歌同级模型

夕小瑶科技说 · 公众号 · AI 科技自媒体 · 2024-08-21 13:44

主要观点总结

文章介绍了微软最新发布的三款人工智能模型：Phi-3.5-MoE-instruct、Phi-3.5-mini-instruct和Phi-3.5 Vision Instruct。这三款模型各有特点，分别针对不同的应用场景进行优化。其中Phi-3.5-MoE-instruct在基准测试中表现出色，Phi-3.5-mini-instruct针对计算受限的环境进行设计，而Phi-3.5 Vision Instruct则是一款多模态推理模型。文章还介绍了模型的训练步骤和开源信息。

关键观点总结

关键观点1: 微软发布三款人工智能模型

包括Phi-3.5-MoE-instruct、Phi-3.5-mini-instruct和Phi-3.5 Vision Instruct，分别针对不同的应用场景进行优化。

关键观点2: Phi-3.5-MoE-instruct表现突出

在基准测试中表现出色，与更大模型相比在某些任务上实现了相似的语言理解和数学水平。

关键观点3: 模型开源和训练步骤

微软将模型以MIT许可方式发布，允许开发者自由使用、修改、发布、分发甚至销售软件副本。同时，官方提供了模型的训练步骤和所需软件包示例。

文章预览

夕小瑶科技说原创作者 | 付奶茶家人们！微软又用爱发电了！一觉醒来，微软发布了最新的小模型三兄弟： Phi-3.5-MoE-instruct Phi-3.5-mini-instruct Phi-3.5-vision-instruct 三兄弟的表现可以说是相当的不错，其中，Phi-3.5-MoE 在基准测试中击败了 Llama 3.1 8B、Mistral-Nemo-12B，Gemini 1.5 Flash。在推理能力方面它也优于其他一些较大的模型，仅落后于 GPT-4o-mini，直接分分钟登顶同级模型！真不错呀！让奶茶带大家看一下！不同用途不同选择！三个Phi 3.5模型有不同的专长！ Phi-3.5 MoE - 微软专家大集合大哥Phi-3.5 MoE 是一个混合专家模型，将多个不同的模型类型组合成一个，其中每个模型类型专门从事不同的任务。该模型有420亿个活动参数的架构，支持128k token上下文长度。划重点： 6.6B 活动参数（总参数42B） 128K 上下文、多语言和相同分词器在 4.9T tokens 上进行训 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【[832星]Swift Build：基于llbuild的高级构-20250202221159

2 天前

爱可可-爱生活 · 【[39星]DIEF_BTS：为建筑数据分析提供超大规模时间序列-20250201130720

4 天前

新疆司法行政 · 大年初三 | 2024年度法治人物送祝福啦！

5 天前

新疆司法行政 · 大年初三 | 2024年度法治人物送祝福啦！

5 天前

爱可可-爱生活 · 深度与广度学习 (DWL) 通过巧妙融合高维和低维特征，在多个数-20250131060959

5 天前

宝玉xp · 转发微博-20250131020137

5 天前

牧夫天文 · 请查收这一份，来自46亿光年之外的宇宙告白

8 月前

北京LOOK · 视频｜去明水古城纳凉吧

7 月前

悦长沙 · 全长沙朝这看！嘉信·洋湖锦玉聚焦区位红利，坐享洋湖、大王山两大价值高地

3 月前

WallStreetTequila · 发现能稳进Citadel Securities的目标校名单

1 月前

吉安发布 · 抢专属文旅消费券！看中华战舞吉州窑首演！

6 天前