专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
目录
相关文章推荐
BNU统计  ·  新年快乐! ·  2 天前  
今天看啥  ›  专栏  ›  专知

【博士论文】视觉Transformer模型,136页pdf

专知  · 公众号  ·  · 2024-05-21 14:00
    

文章预览

深度学习的最新发展涵盖了广泛的任务,如图像分类、文本翻译、围棋对弈和蛋白质折叠。所有这些成功的方法都依赖于一种基于梯度的学习算法,通过大量数据和显著的计算能力来训练模型。尽管这种优化算法是共享的,但深度学习依赖于不同的模型架构来处理训练数据,具体取决于数据的模式:多层感知器用于向量,卷积神经网络用于图像,循环神经网络用于文本和序列,图神经网络用于图。最近加入这一模型家族的是Vaswani等人(2017)为文本翻译开发的Transformer架构。这种架构的碎片化景观迫使从业者根据数据模式选择模型并学习其特性。当问题涉及多种数据模式(如图像字幕)时,这种情况尤其不利。一种更系统的方法是采用一种单一的架构来处理所有模式,并从训练数据中直接学习输入的结构。 本工作采用自然语言处理和视觉之间的横 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览