专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

CV入门--关于Vision Transformer

AINLP  · 公众号  ·  · 2024-09-14 15:41

文章预览

CV入门--关于Vision Transformer Transformer在自然语言的应用很成功,而在CV领域的崛起相对来说就比较慢,毕竟Transformer最初是为自然语言设计的。 图片相比自然语言,多了2D的结构信息,因此从输入开始就需要对数据做一些处理。 一个最直接的处理方法就是把每个pixel当成一个token,并把二维的图片序列化成一维的序列。比如原来的图像可以看做一个二维数组: [[ 1 ,  2 ,  3 ],  [ 4 ,  5 ,  6 ],  [ 7 ,  8 ,  9 ]] flatten之后就成了1D的序列: [[ 1 ,  2 ,  3 ,  4 ,  5 ,  6 ,  7 ,  8 ,  9 ]] 这样224×224的图片变成一个包含50176个pixel(token)的输入序列。不过这样做输入长度明显太长了。50k的长度放在今天的LLM依然是颇有挑战性的一个长度,而这还只是一张224×224的小图片,如果是更大的图片处理起来就更困难了。 因此要处理图像信息,还需要做一些改动。有几个工作 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览