今天看啥  ›  专栏  ›  机器之心

谷歌多模态大模型PaLI:采用参数量为4B的ViT-e,效果超过BEiT-3

机器之心  · 公众号  · AI  · 2022-10-07 12:15
选自arXiv作者:Xi Chen等机器之心编译编辑:张倩PaLI-17B 在多个 benchmark 上都达到了 SOTA。语言和视觉任务的建模中,更大的神经网络模型能获得更好的结果,几乎已经是共识。在语言方面,T5、GPT-3、Megatron-Turing、GLAM、Chinchilla 和 PaLM 等模型显示出了在大文本数据上训练大型 transformer 的明显优势。视觉方面,CNN、视觉 transformer 和其他模型都从大模型中取得了很好的结果。language-and-vision 建模也是类似的情况,如 SimVLM、Florence、CoCa、GIT、BEiT 和 Flamingo。在这篇论文中,来自谷歌的研究者通过一个名为 PaLI (Pathways Language and Image)的模型来延续这一方向的研究。论文链接:https://arxiv.org/pdf/2209.06794.pdfPaLI 使用单独 “Image-and-text to text” 接口执行很多图像、语言以及 "图像 + 语言" 任务。PaLI 的关键结构之一是重复使用大型单模态 backbone 进行语言和视觉建模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照