文章预览
论文 :OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure 链接 :https://arxiv.org/abs/2406.17276 代码 :https://github.com/Jikai0Wang/OPT-Tree 1.背景 目前主流的大模型大多是自回归模型(Autoregressive models),其“一步一词”的生成模式带来了较大的推理开销,制约了其在各种场景中的应用。 投机解码通过”小模型起草(Drafting),大模型验证(Verification)“的方式能够在大模型的一步推理中生成多个有效tokens,实现了无损的模型解码加速。 在投机解码中,小模型的性能决定了其生成的draft的质量,起草的质量越高,平均验证通过的长度也就越大。另一方面,draft的数据结构也是影响算法性能的一个重要因素。 2.方法 以往的工作大多采用序列或是启发式的固定树结构的draft。序列形式的draft存在较多的前缀冗余,即多个draft序列在同一个位置上可能出现多个相同的token。固
………………………………