专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

苹果和英伟达合作新的推测解码方法，可将文本生成速度提升2.7倍

DeepTech深科技 · 公众号 · 科技媒体 · 2024-12-21 18:33

主要观点总结

本文介绍了自回归模型在推理性能方面的瓶颈，以及为解决这一问题而兴起的推测解码技术。苹果提出的ReDrafter方法结合了草稿模型和动态树注意力机制，通过递归设计和束搜索提高预测准确性和效率。ReDrafter与英伟达TensorRT-LLM推理加速框架整合，在GPU上实现更高效的LLM推理性能。文章还介绍了ReDrafter的具体技术细节，包括其基于RNN的草稿模型、动态树注意力算法、知识蒸馏训练方法等，并在不同硬件平台上展示了其性能优势。

关键观点总结

关键观点1: 自回归模型的瓶颈和推测解码技术的兴起

自回归模型在生成文本时需要反复执行前向传播，导致大量的计算资源和频繁的内存访问，从而引起较高的延迟。推测解码技术通过使用草稿模型预测未来token序列，再由主模型验证，实现并行化生成，提高推理效率。

关键观点2: ReDrafter的技术特点

ReDrafter结合了循环神经网络（RNN）的草稿模型和动态树注意力机制，使用束搜索探索多个可能的序列延续。其创新之处在于使用递归设计和动态树注意力算法提高预测准确性和效率。

关键观点3: ReDrafter与英伟达TensorRT-LLM的整合

苹果与英伟达展开深度技术合作，将ReDrafter整合到英伟达TensorRT-LLM推理加速框架中。通过提供标准化的接口和优化的实现，使得开发者能够更容易地部署复杂的语言模型。这一合作显著增强了TensorRT-LLM框架的能力。

关键观点4: ReDrafter的性能优势

ReDrafter在MT-Bench基准测试中实现了显著的性能提升。在每个生成步骤中，它可接受多个token，提高了并行度。在大规模批处理场景下，其吞吐量可达到每秒1636个token。此外，在不同的硬件平台上，ReDrafter都展现出良好的适应性。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

新浪科技 · 【#迪卡侬一门店试衣间门缝惊现摄影头#，客服称已加装外壳并张贴提-20250717221000

昨天

产品可靠性报告 · 第五届中国汽车质量技术大会走进宝马，迈向“新世代”

昨天

寿光报 · 充电宝，将迎新国标

昨天

新浪科技 · 【#小米汽车新轮圈公示#】工信部官网公示了小米 YU7 新轮圈、-20250716223639

2 天前

新浪科技 · 【#美团高管回应外卖大战何时结束##美团高管称外卖陷入非理性战争-20250716214147

2 天前

Clinic門诊新视野 · EuroPCR 2024｜宋光远教授：TAVI术后传导阻滞患者应用过渡起搏器可减少不必要永久起搏器植入

1 年前

河南自然资源 · 河南两部门发文：进一步规范城镇燃气规划实施和建设管理

9 月前

窄播 · 线下沉浸式业态的一种新可能｜1000个创新案例

9 月前

中建三局 · 热 ҈ 热 ҈ 热 ҈ 热 ҈！小暑至，施工生产觅清凉

1 周前