主要观点总结
本文介绍了自回归模型在推理性能方面的瓶颈,以及为解决这一问题而兴起的推测解码技术。苹果提出的ReDrafter方法结合了草稿模型和动态树注意力机制,通过递归设计和束搜索提高预测准确性和效率。ReDrafter与英伟达TensorRT-LLM推理加速框架整合,在GPU上实现更高效的LLM推理性能。文章还介绍了ReDrafter的具体技术细节,包括其基于RNN的草稿模型、动态树注意力算法、知识蒸馏训练方法等,并在不同硬件平台上展示了其性能优势。
关键观点总结
关键观点1: 自回归模型的瓶颈和推测解码技术的兴起
自回归模型在生成文本时需要反复执行前向传播,导致大量的计算资源和频繁的内存访问,从而引起较高的延迟。推测解码技术通过使用草稿模型预测未来token序列,再由主模型验证,实现并行化生成,提高推理效率。
关键观点2: ReDrafter的技术特点
ReDrafter结合了循环神经网络(RNN)的草稿模型和动态树注意力机制,使用束搜索探索多个可能的序列延续。其创新之处在于使用递归设计和动态树注意力算法提高预测准确性和效率。
关键观点3: ReDrafter与英伟达TensorRT-LLM的整合
苹果与英伟达展开深度技术合作,将ReDrafter整合到英伟达TensorRT-LLM推理加速框架中。通过提供标准化的接口和优化的实现,使得开发者能够更容易地部署复杂的语言模型。这一合作显著增强了TensorRT-LLM框架的能力。
关键观点4: ReDrafter的性能优势
ReDrafter在MT-Bench基准测试中实现了显著的性能提升。在每个生成步骤中,它可接受多个token,提高了并行度。在大规模批处理场景下,其吞吐量可达到每秒1636个token。此外,在不同的硬件平台上,ReDrafter都展现出良好的适应性。
文章预览
众所周知,对于自回归模型而言,内存带宽一直是制约推理性能的关键瓶颈。当模型生成文本时,它需要反复执行前向传播来预测每个 token,这个过程不仅需要大量的计算资源,更重要的是会频繁访问内存来获取模型权重和中间状态。这种内存密集型的特性导致了较高的延迟,影响用户体验。 去年,学界兴起了一种称为推测解码(Speculative Decoding)的技术用以缓解这一问题。这种方法使用较小的“草稿 ” 模型来预测可能的未来 token 序列,再由主模型验证,从而实现并行化生成,提高推理效率。 图丨自回归解码和推测解码(来源: arXiv ) 今年初,苹果提出了一种新的推测解码方法 Recurrent Drafter (ReDrafter ) ,对原有方法进行了改进。通过将 RNN 草稿模型与动态树注意力机制相结合,ReDrafter 在每个生成步骤中最多可接受 3.5 个 token,超越了此前方
………………………………