专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

苹果智能系统模型--AFM

AINLP  · 公众号  ·  · 2024-08-03 11:30
    

文章预览

之前苹果在WWDC24发布了包含多个强大模型的Apple Intelligence系统,苹果刚刚最新发出来的技术报告《Apple Intelligence Foundation Language Models》介绍了关于其中两个模型的一些细节 -- 端侧使用的,大小约3B的AFM-on-device,和云侧使用的更大模型AFM-server(AFM=Apple Foundation Model)。报告里没有给出AFM-server的规模。 1.模型 模型的设计比较常规(没有和OpenELM一样玩底大头尖的设计): 几个细节: 共享了输入输入的embedding,减少参数量 参考《Small-scale proxies for large-scale transformer training instabilities》,使用Query/key normalization,提升训练稳定性 RoPE的base frequency为500k tokenizer是基于SentencePiece用BPE训的,所有数字都切分为单个数字。AFM-server模型的词表大小为100k,AFM-on-device则小一些,只有49k。 2.预训练 2.1.数据 数据的来源主要包括:开源数据,从出版商获得使用许可的数据 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览