专栏名称: 慢慢学 AIGC
关注 AIGC,LLM,AI infra 等方向最新资讯,欢迎高质量技术类文章投稿,商务合作可联系 Mistake113
今天看啥  ›  专栏  ›  慢慢学 AIGC

运行本地 AI,GPU/NPU 还是刚需吗?

慢慢学 AIGC  · 公众号  ·  · 2024-12-02 07:19
    

文章预览

点击下方 卡片 ,关注“ 慢慢学AIGC ” 作者:Andreas Kunar, 原文发表时间: 2024 年 11 月 15 日。 以下为正文。 在本地机器上运行 AI(特别是大语言模型的推理)正变得越来越流行,尤其是随着性能更强的 7B 至 70B 模型的出现。本地 LLM 可以解决某些隐私/GDPR 问题,并更好地控制实验期间的成本。然而,普遍的看法是,本地 LLM 需要 GPU 来加快速度,或者需要 NPU 来降低功耗——因为 CPU 太慢了。但现代 AI 软件真的需要 GPU 吗? 在探讨这个问题之前,我们需要了解一些必要的基础知识。 LLM 推理的瓶颈是什么? LLM 推理分为两个部分: 预填充阶段,分析提示 (Prompt Processing,简称 PP)。 解码阶段,逐个生成 LLM 的响应 token (Token Generation,简称 TG)。 推理过程中的提示可能很长,可能包含多个部分——例如系统提示和用户提示;或在检索增强生成(RAG) ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览