谷歌多模态大模型PaLI：采用参数量为4B的ViT-e，效果超过BEiT-3

机器之心 · 公众号 · AI · 2022-10-07 12:15

选自arXiv作者：Xi Chen等机器之心编译编辑：张倩PaLI-17B 在多个 benchmark 上都达到了 SOTA。语言和视觉任务的建模中，更大的神经网络模型能获得更好的结果，几乎已经是共识。在语言方面，T5、GPT-3、Megatron-Turing、GLAM、Chinchilla 和 PaLM 等模型显示出了在大文本数据上训练大型 transformer 的明显优势。视觉方面，CNN、视觉 transformer 和其他模型都从大模型中取得了很好的结果。language-and-vision 建模也是类似的情况，如 SimVLM、Florence、CoCa、GIT、BEiT 和 Flamingo。在这篇论文中，来自谷歌的研究者通过一个名为 PaLI （Pathways Language and Image）的模型来延续这一方向的研究。论文链接：https://arxiv.org/pdf/2209.06794.pdfPaLI 使用单独 “Image-and-text to text” 接口执行很多图像、语言以及 "图像 + 语言" 任务。PaLI 的关键结构之一是重复使用大型单模态 backbone 进行语言和视觉建模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博