专栏名称: 3D视觉之心
3D视觉与SLAM、点云相关内容分享
目录
相关文章推荐
今天看啥  ›  专栏  ›  3D视觉之心

太全了!苹果上新视觉模型4M-21,搞定21种模态

3D视觉之心  · 公众号  ·  · 2024-06-27 07:00
    

文章预览

作者 | 机器之心  编辑 | 陈萍、小舟 点击下方 卡片 ,关注“ 3D视觉之心 ”公众号 第一时间获取 3D视觉干货 >> 点击进入→ 3D视觉之心技术交流群 当前的多模态和多任务基础模型,如 4M 或 UnifiedIO,显示出有希望的结果。然而,它们接受不同输入和执行不同任务的开箱即用能力,受到它们接受训练的模态和任务的数量(通常很少)的限制。 基于此,来自洛桑联邦理工学院(EPFL)和苹果的研究者联合开发了一个任意到任意模态单一模型,该模型在数十种高度多样化的模态上进行训练,并对大规模多模态数据集和文本语料库进行协同训练。 训练过程中一个关键步骤是对各种模态执行离散 tokenization,无论它们是类似图像的神经网络特征图、向量、实例分割或人体姿态等结构化数据,还是可以表征为文本的数据。 论文地址:https://arxiv.org/pdf/2406.09406 论 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览