注册
登录
专栏名称:
专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
武汉大学学生会
·
WHUer的寒假通关宝典
·
15 小时前
四川大学本科招生
·
新年快乐,心想事成!
·
2 天前
四川大学本科招生
·
新年快乐,心想事成!
·
2 天前
BNU统计
·
新年快乐!
·
2 天前
今天看啥
›
专栏
›
专知
【博士论文】视觉Transformer模型,136页pdf
专知
·
公众号
· · 2024-05-21 14:00
文章预览
深度学习的最新发展涵盖了广泛的任务,如图像分类、文本翻译、围棋对弈和蛋白质折叠。所有这些成功的方法都依赖于一种基于梯度的学习算法,通过大量数据和显著的计算能力来训练模型。尽管这种优化算法是共享的,但深度学习依赖于不同的模型架构来处理训练数据,具体取决于数据的模式:多层感知器用于向量,卷积神经网络用于图像,循环神经网络用于文本和序列,图神经网络用于图。最近加入这一模型家族的是Vaswani等人(2017)为文本翻译开发的Transformer架构。这种架构的碎片化景观迫使从业者根据数据模式选择模型并学习其特性。当问题涉及多种数据模式(如图像字幕)时,这种情况尤其不利。一种更系统的方法是采用一种单一的架构来处理所有模式,并从训练数据中直接学习输入的结构。 本工作采用自然语言处理和视觉之间的横 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
武汉大学学生会
·
WHUer的寒假通关宝典
15 小时前
四川大学本科招生
·
新年快乐,心想事成!
2 天前
四川大学本科招生
·
新年快乐,心想事成!
2 天前
BNU统计
·
新年快乐!
2 天前
广西师乐
·
广西人社重磅发布!2年内缴纳过社保依旧是应届毕业生!
6 月前
36氪Pro
·
获5500万美元D+轮融资,「熊猫外卖」今年营业额将破10亿美元|36氪独家
4 月前
玉米世界
·
焦点丨美国农业部12月份农业供需报告
1 月前
玉米世界
·
焦点丨美国农业部12月份农业供需报告
1 月前