今天看啥  ›  专栏  ›  Alpha Engineer

Apple端侧AI奠基性论文解读

Alpha Engineer  · 公众号  ·  · 2024-06-26 15:30

文章预览

作者 | 费斌杰 熵简科技CEO 今年WWDC上,苹果高调推出了AI战略,还顺带玩了个谐音梗,把自家的AI定义为 “ Apple Intelligence ”。 随着大模型不断 Scaling up ,推理所需的计算和存储开销也在快速增长。 然而手机的内存资源很有限,这就导致我们很难在手机上直接运行本地大模型。 举个例子,一个 7B 参数的模型大约需要 14GB 的内存来加载模型权重。然而,最新的 iPhone 15 Pro Max 的运行内存只有 8GB ,远远不够。 如何在有限的内存下实现高效的大模型推理,是端侧 AI 发展的重要任务。 今年初, Apple 发表了一篇可以说对端侧 AI 有着奠基意义的重要论文,一定程度上解决了这个问题。 这篇论文的标题是《LLM in a flash: Efficient Large Language Model Inference with Limited Memory》,周末我仔细学习了一下,收获很大,分享给大家。 (1)大模型推理的背后:闪存与DRAM 通 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览