小红书提出大模型推理加速算法 HASS 刷新 SOTA

小红书技术REDtech · 公众号 · · 2024-10-11 18:27

文章预览

在大模型推理领域，投机采样是一种被广泛使用的无损加速算法。近期一些投机采样的工作将大模型的上下文信息（例如 hidden states 和 KV cache）引入草稿模型，可以充分利用大模型的知识来提升加速比，但这类算法也会带来训练和解码的上下文不一致问题。此外，我们也发现现有算法在训练和解码的目标上也存在一定的不一致现象。小红书中台算法团队提出的 HASS 算法在目标和上下文上对齐了草稿模型的训练和解码阶段，达到了普通推理速度的 2.81～4.05 倍，相比 SOTA 方法 EAGLE-2 提升 8%～20%，相关技术已应用在小红书实际业务场景中。论文地址 https://arxiv.org/pdf/2408.15766 生成式大语言模型（LLMs）在各种任务上表现出令人惊叹的能力。然而，由于其固有的自回归解码机制，人们难以在这些模型上高效推理，这限制了它们在时间敏感场景中的应用。投机 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

设计诗designer · Nice Projects丨经典而优雅

昨天

设计诗designer · Nice Projects丨经典而优雅

昨天

PChouse家居画报 · 被年轻人捡起来的新中式有多绝？东方美学直接拿下一家老小

昨天

龙江市场监管 · 标准发布！看智能床如何精准适配老人需求（附一图读懂）

2 天前

山东省消协 · @买家具的你！这项强制性国家标准即将实施~

2 天前

丁香学术 · Nat Cell Biol：多校强强联手，发现T细胞调控抗白血病免疫新机制

7 月前

918云南交通台 · 今天，正式启动

5 月前

滑州百事通 · 春节将至，滑县发布温馨提示！

1 月前