统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

深度图学习与大模型LLM · 公众号 · · 2024-08-26 10:03

文章预览

机器之心报道编辑：陈陈本文转自机器之心，原文链接https://mp.weixin.qq.com/s/D0sadIZkILx8VvWcsIEYFQ 本文引入了 Transfusion，这是一种可以在离散和连续数据上训练多模态模型的方法。一般来说，多模态生成模型需要能够感知、处理和生成离散元素（如文本或代码）和连续元素（如图像、音频和视频数据）。在离散模态领域，以预测下一个词为目标的语言模型占据主导地位，而在生成连续模态方面，扩散模型及其泛化形式则是当前最先进技术。研究者一直试图将语言模型与扩散模型结合，一种方法是直接扩展语言模型，使其能够利用扩散模型作为一个工具，或者将一个预训练的扩散模型嫁接到语言模型上。另一种替代方案是对连续模态进行量化处理，然后在离散的 token 上训练一个标准的语言模型，这种方法虽然简化了模型架构，但也会造成信息的丢失 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

自然系列 · 化学与材料有哪些推荐书目？含诺奖得主作品的图书合集请查收！

2 天前

实验万事屋 · 课题陷入了瓶颈？想要优化课题设计？课题无人指导很迷茫？夏老师课题指导火热来袭！为你的科研保驾护航。

2 天前

募格学术 · 杰青专家强强联手：专业解读2025年国家自然科学基金项目申报技巧

3 天前

PaperWeekly · 直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

4 天前

小小包麻麻 · 极致内卷的恶果，已经开始在10后身上体现了

1 周前

小小包麻麻 · 极致内卷的恶果，已经开始在10后身上体现了

1 周前