今天看啥  ›  专栏  ›  新机器视觉

解决NLP任务的Transformer为什么可以应用于计算机视觉?

新机器视觉  · 公众号  ·  · 2024-08-15 16:23

文章预览

几乎所有的自然语言处理任务,从语言建模和masked词预测到翻译和问答,在2017年Transformer架构首次亮相后都经历了革命性的变化。 Transformer 在计算机视觉任务中也表现出色,只用了2-3年的时间。在这篇文章中,我们探索了两种基础架构,它们使 Transformer 能够闯入计算机视觉的世界。 目录 视觉 Transformer 主要思想 操作 混合架构 结构的丧失 结果 通过 masked 进行自监督学习 masked 自编码视觉 Transformer 主要思想 架构 最后评论和示例 视觉 Transformer 主要思想 视觉 Transformer 的意图是将标准变换器架构泛化,以处理和从图像输入中学习。关于架构的一个主要思想是作者足够透明地强调了: “受到NLP中 Transformer 扩展成功的启发,我们尝试直接将标准 Transformer 应用于图像,尽可能少地进行修改。” 操作 可以非常字面地理解“尽可能少的修改”,因为他们几 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览