文章预览
之前苹果在WWDC24发布了包含多个强大模型的Apple Intelligence系统,苹果刚刚最新发出来的技术报告《Apple Intelligence Foundation Language Models》介绍了关于其中两个模型的一些细节 -- 端侧使用的,大小约3B的AFM-on-device,和云侧使用的更大模型AFM-server(AFM=Apple Foundation Model)。报告里没有给出AFM-server的规模。 1.模型 模型的设计比较常规(没有和OpenELM一样玩底大头尖的设计): 几个细节: 共享了输入输入的embedding,减少参数量 参考《Small-scale proxies for large-scale transformer training instabilities》,使用Query/key normalization,提升训练稳定性 RoPE的base frequency为500k tokenizer是基于SentencePiece用BPE训的,所有数字都切分为单个数字。AFM-server模型的词表大小为100k,AFM-on-device则小一些,只有49k。 2.预训练 2.1.数据 数据的来源主要包括:开源数据,从出版商获得使用许可的数据
………………………………