文章预览
苹果透露,它在开发最近发布的 Apple Intelligence 功能时并未使用 Nvidia 的硬件加速器。根据苹果官方的研究论文: machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf 苹果使用的是谷歌的 TPU 来处理训练数据,背后支持 Apple Intelligence 基础语言模型。 配备谷歌TPUv4和TPUv5芯片的系统在创建Apple Foundation Models(AFMs)过程中发挥了重要作用。这些模型,包括AFM-server和AFM-on-device模型,旨在为在线和离线Apple Intelligence功能提供支持,这些功能在 2024 年 6 月的全球开发者大会(WWDC)上得到了广泛宣传。 AFM-server 是苹果最大的 LLM,因此它仅在线使用。根据最近发布的研究论文,苹果的 AFM-server 在 8,192 个 TPUv4 芯片上训练,“分配为 8 × 1,024 芯片切片,这些切片通过数据中心网络(DCN)连接在一起。”预训练是一个三阶段过程,首先使用 6.3T 的 tokens,
………………………………