【博士论文】视觉Transformer模型，136页pdf

专知 · 公众号 · · 2024-05-21 14:00

文章预览

深度学习的最新发展涵盖了广泛的任务，如图像分类、文本翻译、围棋对弈和蛋白质折叠。所有这些成功的方法都依赖于一种基于梯度的学习算法，通过大量数据和显著的计算能力来训练模型。尽管这种优化算法是共享的，但深度学习依赖于不同的模型架构来处理训练数据，具体取决于数据的模式：多层感知器用于向量，卷积神经网络用于图像，循环神经网络用于文本和序列，图神经网络用于图。最近加入这一模型家族的是Vaswani等人（2017）为文本翻译开发的Transformer架构。这种架构的碎片化景观迫使从业者根据数据模式选择模型并学习其特性。当问题涉及多种数据模式（如图像字幕）时，这种情况尤其不利。一种更系统的方法是采用一种单一的架构来处理所有模式，并从训练数据中直接学习输入的结构。本工作采用自然语言处理和视觉之间的横 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

常青藤爸爸 · 爱运动的娃有福了！安德玛疯狂大促，轻松囤齐全年运动装备！

昨天

科学家庭育儿 · 宝爸一个常见行为，竟致娃“铅中毒”！已有多娃中招，快防

昨天

政法频道 · 让难念的经不再难念——热播剧《六姊妹》带给育儿的思考

2 天前

生态与地理速报 · Nature子刊 | 南师大边博教授联合芬兰坦佩雷大学何超教授在城乡有机废弃物循环利用领域取得重要进展

8 月前

金莱勒 · 国庆节 | 远阔山河礼赞今朝

5 月前