解决NLP任务的T为什么可以应用于计算机视觉？

小白玩转Python · 公众号 · · 2024-07-02 20:07

文章预览

点击下方卡片，关注“ 小白玩转Python ”公众号几乎所有的自然语言处理任务，从语言建模和masked词预测到翻译和问答，在2017年Transformer架构首次亮相后都经历了革命性的变化。 Transformer 在计算机视觉任务中也表现出色，只用了2-3年的时间。在这篇文章中，我们探索了两种基础架构，它们使 Transformer 能够闯入计算机视觉的世界。目录视觉 Transformer 主要思想操作混合架构结构的丧失结果通过 masked 进行自监督学习 masked 自编码视觉 Transformer 主要思想架构最后评论和示例视觉 Transformer 主要思想视觉 Transformer 的意图是将标准变换器架构泛化，以处理和从图像输入中学习。关于架构的一个主要思想是作者足够透明地强调了： “受到NLP中 Transformer 扩展成功的启发，我们尝试直接将标准 Transformer 应用于图像，尽可能少地进行修改。” 操作可以非 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博