文章预览
最近微软连发三个模型: - 38.2亿参数的Phi-3.5-mini-instruct - 419亿参数的Phi-3.5-MoE-instruct - 41.5亿参数的Phi-3.5-vision-instruct 这里重温几个月前微软关于 phi-3的研究报告。 24年5月来自微软的工作 “Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone”。 phi-3-mini,是微软一个 38 亿参数的语言模型,在 3.3 万亿个 token 上进行训练,其整体性能(通过学术基准和内部测试衡量)可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美(例如,phi-3-mini 在 MMLU 上达到 69%,在 MT-bench 上达到 8.38),尽管它足够小可以部署在手机上。创新完全在训练数据集,它是用于 phi-2 的数据集放大版,由经过严格过滤的公开网络数据和合成数据组成。该模型还进一步针对稳健性、安全性和聊天格式进行了调整。还提供一些初始参数缩放结果,这些模型分别针对 4.8T tokens 进行了训练,分别为
………………………………