文章预览
来源:投稿 作者:LSC 编辑:学姐 unset unset 一面 unset unset 1.自我介绍 2.介绍自己对推荐流程的了解 3.介绍diffusion的原理 4.写一下diffusion的伪代码 5.写一下Masking Attention的伪代码 def masked_attention(Q, K, V, mask): "" " 计算 Masked Attention 的伪代码函数 Args: - Q: 查询矩阵,shape: [batch_size, num_heads, seq_length, head_dim] - K: 键矩阵,shape: [batch_size, num_heads, seq_length, head_dim] - V: 值矩阵,shape: [batch_size, num_heads, seq_length, head_dim] - mask: 掩码矩阵,用于屏蔽未来位置信息,shape: [batch_size, 1, seq_length, seq_length] Returns: - output: Masked Attention 的输出,shape: [batch_size, num_heads, seq_length, head_dim] " "" # 计算 Q 和 K 的点积 scores = torch.matmul(Q, K.transpose(-1, -2)) # [batch_siz
………………………………