专栏名称: 瓦力算法学研所
我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势,以及如何应用这些技术来解决实际问题,探索每一项技术落地的可行性方案。
今天看啥  ›  专栏  ›  瓦力算法学研所

大模型面经—GQA(Grouped Query Attention)和MHA、MQA的区别及代码

瓦力算法学研所  · 公众号  ·  · 2024-07-07 10:43
    

文章预览

技术总结专栏 作者:喜欢卷卷的瓦力 本篇介绍分组查询注意力机制。 在大模型技术中,GQA(Grouped Query Attention)是一种注意力机制,它介于MHA(Multi-Head Attention)和MQA(Multi-Query Attention)之间,旨在结合两者的优点, 以实现在保持MQA推理速度的同时接近MHA的精度 。 MHA是一种基础的注意力机制,它通过将输入分割成多个头(heads)来并行计算注意力,每个头学习输入的不同部分,最终将结果合并,以捕获序列的不同方面信息 。 MQA则是一种优化的注意力机制,它通过让所有头共享相同的键(keys)和值(values),减少了参数量和计算量,从而加快了推理速度,但可能会牺牲一些精度 。 GQA作为MHA和MQA的折中方案, 它将查询头(query heads)分组,每组共享一个键和值,而不是所有头都共享 。这样,GQA能够在减少计算量的同时,保持更多的多样性,从而 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览