文章预览
24年5月来自AI芯片创业公司SambaNova的论文“SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts“。 像 GPT-4 这样的单片大语言模型 (LLM) 为现代生成式 AI 应用铺平了道路。然而,大规模训练、服务和维护单片 LLM 仍然非常昂贵且具有挑战性。现代 AI 加速器的计算-内存的不成比例增加造成了内存壁垒,需要新的方法来部署 AI。最近的研究表明,由许多较小的专家模型组成的组合,每个模型的参数都少几个数量级,可以达到或超过单片 LLM 的能力。 专家组合 (CoE) 是一种模块化方法,可降低训练和服务的成本和复杂性。然而,这种方法在使用传统硬件时面临两个关键挑战:(1) 没有融合操作,较小的模型具有较低的操作强度,这使得高利用率更难实现;(2) 在动态切换时,托管大量模型要么成本过高,要么速度很慢。 该文将描述如何结合 CoE、
………………………………