文章预览
CV入门--关于Vision Transformer Transformer在自然语言的应用很成功,而在CV领域的崛起相对来说就比较慢,毕竟Transformer最初是为自然语言设计的。 图片相比自然语言,多了2D的结构信息,因此从输入开始就需要对数据做一些处理。 一个最直接的处理方法就是把每个pixel当成一个token,并把二维的图片序列化成一维的序列。比如原来的图像可以看做一个二维数组: [[ 1 , 2 , 3 ], [ 4 , 5 , 6 ], [ 7 , 8 , 9 ]] flatten之后就成了1D的序列: [[ 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 ]] 这样224×224的图片变成一个包含50176个pixel(token)的输入序列。不过这样做输入长度明显太长了。50k的长度放在今天的LLM依然是颇有挑战性的一个长度,而这还只是一张224×224的小图片,如果是更大的图片处理起来就更困难了。 因此要处理图像信息,还需要做一些改动。有几个工作
………………………………