专栏名称: 学姐带你玩AI

这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Llama改进之——分组查询注意力

学姐带你玩AI · 公众号 · · 2024-08-21 18:33

文章预览

来源：投稿作者：175 编辑：学姐 unset unset 引言 unset unset 今天介绍LLAMA2模型引入的关于注意力的改进——分组查询注意力(Grouped-query attention,GQA)1。 Transformer中的多头注意力在解码阶段来说是一个性能瓶颈。多查询注意力2通过共享单个key和value头，同时不减少query头来提升性能。多查询注意力可能导致质量下降和训练不稳定，因此常用的是分组查询注意力。然后我们结合上篇文章3探讨的旋转位置编码，将选择位置编码应用到分组查询注意力上。 unset unset 多头注意力 unset unset 我们先回顾以下原始多头注意力的实现。 import torch from torch import nn, Tensor import math from dataclasses import dataclass @dataclass class ModelArgs: hidden_size: int = 512 num_heads: int = 8 attention_dropout: float = 0.1 class MultiHeadAttention(nn.Module): def __init__(self, args: Mode ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博