Phi-3 技术报告：手机本地运行的高性能语言模型

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-08-25 00:10

文章预览

最近微软连发三个模型： - 38.2亿参数的Phi-3.5-mini-instruct - 419亿参数的Phi-3.5-MoE-instruct - 41.5亿参数的Phi-3.5-vision-instruct 这里重温几个月前微软关于 phi-3的研究报告。 24年5月来自微软的工作 “Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone”。 phi-3-mini，是微软一个 38 亿参数的语言模型，在 3.3 万亿个 token 上进行训练，其整体性能（通过学术基准和内部测试衡量）可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美（例如，phi-3-mini 在 MMLU 上达到 69%，在 MT-bench 上达到 8.38），尽管它足够小可以部署在手机上。创新完全在训练数据集，它是用于 phi-2 的数据集放大版，由经过严格过滤的公开网络数据和合成数据组成。该模型还进一步针对稳健性、安全性和聊天格式进行了调整。还提供一些初始参数缩放结果，这些模型分别针对 4.8T tokens 进行了训练，分别为 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

凤凰网读书 · 古人都给自己的猫取什么名字？

昨天

豆瓣读书 · 我们真的走出荒原了吗？

2 天前

盛和塾 · 视频｜曹岫云：幸福四件事

2 天前

盛和塾 · 视频｜曹岫云：幸福四件事

2 天前

龙岩图书馆 · 全民阅读线上活动｜诗海拾遗

3 天前

阑夕 · 有了！-20240621001946

5 月前

格林威治嬉皮研究公社 · 劳动它最好光荣

5 月前

老井扯鸡蛋 · 增强蛋鸡免疫力！从鱼肝油开始！蓝肽浓缩鱼肝油推荐给您！

3 月前