今天看啥  ›  专栏  ›  Founder Park

Meta发布多模态模型Chameleon:34B、类GPT-4o、性能接近GPT-4V

Founder Park  · 公众号  ·  · 2024-05-20 21:29
    

文章预览

GPT-4o 的横空出世,再次创立了一个多模态模型发展的新范式。 OpenAI 将其称为「首个『原生』多模态」模型,意味着 GPT-4o 与以往所有的模型,都不尽相同。 传统的多模态基础模型,通常为每种模态采用特定的「编码器」或「解码器」,将不同的模态分离开。 然而,这种方法限制了模型,有效融合跨模态信息的能力。官博介绍,GPT-4o 是「首个端到端」训练的,跨越文本、视觉和音频的模型,所有的输入和输出,都由单个神经网络处理。 而现在,业界首个敢于挑战 GPT-4o 的模型现身了。 最近,来自 Meta 团队的研究人员发布了「混合模态基座模型」——Chameleon(变色龙)。 论文地址:https://arxiv.org/pdf/2405.09818 与 G PT-4o 一样,Chameleon 采用了统一的 Transformer 架构,使用文本、图像和代码混合模态完成训练。 以类似文本生成的方式,对图像进行离散「分 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览