专栏名称: 机器学习初学者
号主黄博Github全球排名前90,3.6万Star!致力于为初学者提供学习路线和基础资料,公众号可以当作随身小抄,文章很全,建议收藏!点击菜单可以进入学习!
今天看啥  ›  专栏  ›  机器学习初学者

【深度学习】搞懂Transformer结构,看这篇PyTorch实现就够了

机器学习初学者  · 公众号  ·  · 2024-08-08 12:00

文章预览

作者丨Alexander Rush   来源丨哈工大SCIR, 编辑丨极市平台 下面分享一篇实验室翻译的来自哈佛大学一篇关于Transformer的详细博文。 "Attention is All You Need"[1] 一文中提出的Transformer网络结构最近引起了很多人的关注。 Transformer不仅能够明显地提升翻译质量,还为许多NLP任务提供了新的结构。 虽然原文写得很清楚,但实际上大家普遍反映很难正确地实现。 所以我们为此文章写了篇注解文档,并给出了一行行实现的Transformer的代码。本文档删除了原文的一些章节并进行了重新排序,并在整个文章中加入了相应的注解。此外,本文档以Jupyter notebook的形式完成,本身就是直接可以运行的代码实现,总共有400行库代码,在4个GPU上每秒可以处理27,000个tokens。 想要运行此工作,首先需要安装PyTorch[2]。这篇文档完整的notebook文件及依赖可在github[3] 或 Google Colab[4]上找 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览