苹果让大模型学会偷懒：更快吐出第一个token，准确度还保住了

FightingCV · 公众号 · · 2024-08-03 09:00

文章预览

关注“ FightingCV ”公众号回复“ AI ”即可获得超100G人工智能的教程点击进入→ FightingCV交流群偷懒才能更好地工作。 Llama 3.1 刚刚发布，你是否已经尝试了呢？就算你的个人计算机是最近的顶尖配置，运行其中最小的 8B 版本可能也依然会有明显延迟。为了提升模型的推理效率，研究者想出了多种多样的方法，但其中很多都会让模型牺牲一些准确度。近日，苹果和 Meta AI 的一个研究团队提出了一种新方法，可在保证准确度不明显下降的同时，将 Llama 2 预填充阶段的推理速度提升到原来的 2 倍以上，这或许能为 Llama 3.1 的加速提供一些启发。他们把这种方法称为 LazyLLM，即懒惰大型语言模型。论文标题：LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference 论文地址：https://arxiv.org/abs/2407.14057 那么他们是怎么让 LLM 偷懒的呢？要理解他们的方法， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博