今天看啥  ›  专栏  ›  智源社区助手

7月9日直播|加速比5倍,无损大模型推理加速算法,EAGLE & EAGLE-2

智源社区助手  · 公众号  ·  · 2024-07-05 14:30

文章预览

报告主题 :EAGLE : 无损大模型推理加速算法 报告日期 :7月9日(周二)14:30-15:30 报告要点 : 本报告将介绍无损大语言模型加速算法EAGLE及其后续工作EAGLE-2(《EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty》和《EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees》)。 EAGLE在更有规律的特征层而不是token层进行自回归,同时引入采样结果以消除不确定性。 得益于这两点改进,EAGLE的草稿模型兼顾轻量和准确,将大语言模型的推理速度提升2.1x-3.8x,并保证输出的分布不改变。 EAGLE-2引入动态草稿树,利用草稿模型的置信度近似草稿token的接受率,据此动态地调整草稿树的结构,提高了平均接受长度。 EAGLE-2在保证不改变输出分布的基础上将EAGLE-1再次提升了20%-40%,加速比达到2.5x-5.0x。 EAGLE和EAGLE-2也在工业界得到应用,集成至intel/intel-extension-for-tr ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览