今天看啥  ›  专栏  ›  机器之心

太全了!苹果上新视觉模型4M-21,搞定21种模态

机器之心  · 公众号  · AI  · 2024-06-25 12:29
    

文章预览

机器之心报道 编辑:陈萍、小舟 当前的多模态和多任务基础模型,如 4M 或 UnifiedIO,显示出有希望的结果。然而,它们接受不同输入和执行不同任务的开箱即用能力,受到它们接受训练的模态和任务的数量(通常很少)的限制。 基于此,来自洛桑联邦理工学院(EPFL)和苹果的研究者联合开发了一个任意到任意模态单一模型,该模型在数十种高度多样化的模态上进行训练,并对大规模多模态数据集和文本语料库进行协同训练。 训练过程中一个关键步骤是对各种模态执行离散 tokenization,无论它们是类似图像的神经网络特征图、向量、实例分割或人体姿态等结构化数据,还是可以表征为文本的数据。 论文地址:https://arxiv.org/pdf/2406.09406 论文主页 https://4m.epfl.ch/ 论文标题:4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities 该研究展示了训练单一模型, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览