今天看啥  ›  专栏  ›  机器学习实验室

Transfusion:统一Transformer与Diffusion!Meta提出下一代多模态王者

机器学习实验室  · 公众号  ·  · 2024-08-27 15:49

文章预览

 多模态  转自:机器之心 本文引入了 Transfusion,这是一种可以在离散和连续数据上训练多模态模型的方法。 一般来说,多模态生成模型需要能够感知、处理和生成离散元素(如文本或代码)和连续元素(如图像、音频和视频数据)。 在离散模态领域,以预测下一个词为目标的语言模型占据主导地位,而在生成连续模态方面,扩散模型及其泛化形式则是当前最先进技术。 研究者一直试图将语言模型与扩散模型结合,一种方法是直接扩展语言模型,使其能够利用扩散模型作为一个工具,或者将一个预训练的扩散模型嫁接到语言模型上。另一种替代方案是对连续模态进行量化处理,然后在离散的 token 上训练一个标准的语言模型,这种方法虽然简化了模型架构,但也会造成信息的丢失。 在这项工作中, 来自 Meta 、 Waymo 等机构的研究者展示了通过训练 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览