文章预览
一行代码让推荐大模型推理加速 1.5~2.5 倍 推荐大模型常用Beam search来生成top-K个item。然而,由于自回归解码的特性,标准的LLM推理是非常低效的,并且其时耗成本几乎随 beam size 线性增长。为了加速推荐大模型推理,我们提出了一种无损加速beam search 的方法——AtSpeed,并开源了相关 Python 包,使用起来非常方便,只需 import 再加一行代码即可 (Python包的使用说明附在文末)。 该方法针对 beam search 开发了相应 speculative decoding 算法并实现了 tree attention 算法。 其算法不仅能应用于生成式推荐,还有潜力应用在LLM推理(如CoT 推理)等需要 beam search 的多种场景 。 论文题目:Efficient Inference for Large Language Model-based Generative Recommendation Arxiv链接:https://arxiv.org/abs/2410.05165 代码仓库:https://github.com/transcend-0/BeamSD 生成式推荐大模型中的 Beam Search 在生成式推荐中,
………………………………