今天看啥  ›  专栏  ›  新机器视觉

动手实现Transformer

新机器视觉  · 公众号  ·  · 2025-01-06 11:11
    

文章预览

作用 突破信息瓶颈,能够解决LSTM、RNN上下文短的问题。 Transformer结构 标准的 Transformer 模型主要由两个模块构成: Encoder (左边):负责理解输入文本,为每个输入构造对应的语义表示(语义特征); Decoder (右边):负责生成输出,使用 Encoder 输出的语义表示结合其他输入来生成目标序列。 纯 Encoder 模型: 适用于只需要理解输入语义的任务,例如句子分类、命名实体识别; 纯 Decoder 模型: 适用于生成式任务,例如文本生成; Encoder-Decoder 模型或 Seq2Seq 模型:适用于需要基于输入的生成式任务,例如翻译、摘要。 注意力层 Transformer 模型的标志就是采用了 注意力层  (Attention Layers) 的结构,前面也说过,提出 Transformer 结构的论文名字就叫《Attention Is All You Need》 (https://arxiv.org/abs/1706.03762) 。顾名思义,注意力层的作用就是让模型在处理文本时 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览