文章预览
点击下方 卡片 ,关注“ 小白玩转Python ”公众号 几乎所有的自然语言处理任务,从语言建模和masked词预测到翻译和问答,在2017年Transformer架构首次亮相后都经历了革命性的变化。 Transformer 在计算机视觉任务中也表现出色,只用了2-3年的时间。在这篇文章中,我们探索了两种基础架构,它们使 Transformer 能够闯入计算机视觉的世界。 目录 视觉 Transformer 主要思想 操作 混合架构 结构的丧失 结果 通过 masked 进行自监督学习 masked 自编码视觉 Transformer 主要思想 架构 最后评论和示例 视觉 Transformer 主要思想 视觉 Transformer 的意图是将标准变换器架构泛化,以处理和从图像输入中学习。关于架构的一个主要思想是作者足够透明地强调了: “受到NLP中 Transformer 扩展成功的启发,我们尝试直接将标准 Transformer 应用于图像,尽可能少地进行修改。” 操作 可以非
………………………………