专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

苹果智能系统模型--AFM

AINLP · 公众号 · · 2024-08-03 11:30

文章预览

之前苹果在WWDC24发布了包含多个强大模型的Apple Intelligence系统，苹果刚刚最新发出来的技术报告《Apple Intelligence Foundation Language Models》介绍了关于其中两个模型的一些细节 -- 端侧使用的，大小约3B的AFM-on-device，和云侧使用的更大模型AFM-server（AFM=Apple Foundation Model）。报告里没有给出AFM-server的规模。 1.模型模型的设计比较常规（没有和OpenELM一样玩底大头尖的设计）：几个细节：共享了输入输入的embedding，减少参数量参考《Small-scale proxies for large-scale transformer training instabilities》，使用Query/key normalization，提升训练稳定性 RoPE的base frequency为500k tokenizer是基于SentencePiece用BPE训的，所有数字都切分为单个数字。AFM-server模型的词表大小为100k，AFM-on-device则小一些，只有49k。 2.预训练 2.1.数据数据的来源主要包括：开源数据，从出版商获得使用许可的数据 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

东方网 · 海底捞再发声明：4109单，10倍现金补偿！

11 小时前

每日商报 · 在承载“凤凰起飞”祥瑞意象的这条路上，一份避风塘炒蟹，完美复刻粤系风味

昨天

每日商报 · 在承载“凤凰起飞”祥瑞意象的这条路上，一份避风塘炒蟹，完美复刻粤系风味

昨天

上海发布 · 【教育】沪2025年春招预录取及候补录取资格网上确认将于3月12日9:00开始

2 天前

下厨房 · 早餐别凑合！不用开火，90秒解锁星爸爸同款！打工人又能多睡半小时

2 天前

今日闵行 · 电网检修！3月10日，闵行这些地方供电将会暂时中断

3 天前

储能与电力市场 · 上海：不低于20%/2h配储，1GW海上光伏首轮竞配，可自建/合建/租赁

6 月前

金融早实习 · 中金公司2025招聘公告及薪资待遇！

3 月前