文章预览
在大模型推理领域,投机采样是一种被广泛使用的无损加速算法。近期一些投机采样的工作将大模型的上下文信息(例如 hidden states 和 KV cache)引入草稿模型,可以充分利用大模型的知识来提升加速比,但这类算法也会带来训练和解码的上下文不一致问题。此外,我们也发现现有算法在训练和解码的目标上也存在一定的不一致现象。小红书中台算法团队提出的 HASS 算法在目标和上下文上对齐了草稿模型的训练和解码阶段,达到了普通推理速度的 2.81~4.05 倍,相比 SOTA 方法 EAGLE-2 提升 8%~20%,相关技术已应用在小红书实际业务场景中。 论文地址 https://arxiv.org/pdf/2408.15766 生成式大语言模型(LLMs)在各种任务上表现出令人惊叹的能力。然而,由于其固有的自回归解码机制,人们难以在这些模型上高效推理,这限制了它们在时间敏感场景中的应用。投机
………………………………