注意力机制中的掩码详解

小白学视觉 · 公众号 · · 2024-09-14 10:41

文章预览

点击上方 “ 小白学视觉 ”，选择加" 星标 "或“ 置顶 ” 重磅干货，第一时间送达作者丨Prudhviraju Srivatsavaya 来源丨DeepHub IMBA 编辑丨极市平台极市导读注意力机制的掩码允许我们发送不同长度的批次数据一次性的发送到transformer中。在代码中是通过将所有序列填充到相同的长度，然后使用“attention_mask”张量来识别哪些令牌是填充的来做到这一点，本文将详细介绍这个掩码的原理和机制。我们先介绍下如果不使用掩码，是如何运行的。这里用GPT-2每次使用一个序列来执行推理，因为每次只有一个序列，所以速度很慢: from transformers import GPT2LMHeadModel, GPT2Tokenizer tokenizer = GPT2Tokenizer.from\_pretrained\( 'gpt2' \) gpt2 = GPT2LMHeadModel.from\_pretrained\( 'gpt2' \) context = tokenizer\( 'It will rain in the' , return \_tensors= 'pt' \) predic ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

芋道源码 · 中国永远不会倒闭的四个行业

14 小时前

芋道源码 · 公司来了个大神，三方接口调用方案设计的真优雅~~

昨天

芋道源码 · 微服务项目打包部署，一套带走

3 天前

芋道源码 · 真的建议赶紧搞个软考证书！（红利期）

4 天前

芋道源码 · 从零开始搭建一个通用的业务技术架构，这套架构有点牛逼！

5 天前

笔吧评测室 · 华硕天选 2024 夏季新品发布会 7 月 22 日举行

4 月前

润农畜牧报价 · 2024年8月19日山东玉米迎久违飘红上涨，进口玉米同比降34.9%，市场利好出现！

3 月前

参谋长说车车友俱乐部 · 换早费钱，换晚伤车，汽车机油里面的套路你都了解吗？

1 月前

​注意力机制中的掩码详解

文章预览

注意力机制中的掩码详解