一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

一步生成超过10个Tokens!! 无损模型解码加速最新工作

深度学习自然语言处理  · 公众号  ·  · 2024-07-09 13:34

文章预览

论文 :OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure 链接 :https://arxiv.org/abs/2406.17276 代码 :https://github.com/Jikai0Wang/OPT-Tree 1.背景 目前主流的大模型大多是自回归模型(Autoregressive models),其“一步一词”的生成模式带来了较大的推理开销,制约了其在各种场景中的应用。 投机解码通过”小模型起草(Drafting),大模型验证(Verification)“的方式能够在大模型的一步推理中生成多个有效tokens,实现了无损的模型解码加速。 在投机解码中,小模型的性能决定了其生成的draft的质量,起草的质量越高,平均验证通过的长度也就越大。另一方面,draft的数据结构也是影响算法性能的一个重要因素。 2.方法 以往的工作大多采用序列或是启发式的固定树结构的draft。序列形式的draft存在较多的前缀冗余,即多个draft序列在同一个位置上可能出现多个相同的token。固 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览