专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜

新智元  · 公众号  · AI  · 2024-12-05 10:00
    

文章预览

   新智元报道   编辑:peter东 乔杨 【新智元导读】 大模型如今已具有越来越长的上下文,而与之相伴的是推理成本的上升。英伟达 最新提出的Star Attention,能够在不损失精度的同时,显著减少推理计算量,从而助力边缘计算。 当下的手机及AIPC中都会安装本地大模型,然而上下文长度增加,推理时的计算成本也会显著增长。最明显的一个后果就是,用户输入问题后需要等待很久才能看到结果。 为此,已有多种优化方案提出,例如Flash Attention,而11月26日英伟达提出的Star Attention机制,可用于提升Transformer模型在处理长序列时的效率和准确性。 值得一提的是,这篇文章受到了广泛的关注,登顶H ug ging F ace每日论文榜首。 论文地址:https://arxiv.org/abs/2411.17116 Star Attention如何降低推理成本 在了解Star Attention如何改进大模型推理前,让我们先看看当前大 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览