专栏名称: AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Lumina-T2X：一个使用DiT架构的内容生成模型，可由文本生成图像、视频、多视角3D对象和音频剪辑。

AIGC Studio · 公众号 · 科技自媒体 · 2024-06-17 06:00

主要观点总结

本文介绍了Lumina-T2X系列模型，它是一个统一的文本转任意模式生成框架，支持图像、视频、多视图3D对象和音频剪辑的生成。核心是一系列基于流动的大扩散变压器（FLAG-DIT）。Lumina-T2I是该系列的图像生成模型，具有优秀的生成质量和计算效率。文章还讨论了模型的关键修改和高级技术，如绳索、RMSNorm等，增强了模型的稳定性、灵活性和可扩展性。实验结果表明，Lumina-T2I能够在不同分辨率和宽高比下生成高质量的图像，并与PixArt-α相比具有更好的性能。

关键观点总结

关键观点1: Lumina-T2X系列模型是一个统一的文本转任意模式生成框架。

该框架支持图像、视频、多视图3D对象和音频剪辑的生成，旨在将文本说明转换为任意分辨率和持续时间的任何模式。

关键观点2: Lumina-T2I是图像生成模型。

它具有良好的生成质量和计算效率，由FLAG-DIT驱动，仅需要同类模型的35%计算成本。

关键观点3: 模型的关键修改和高级技术增强了其性能。

包括绳索、RMSNorm等技术增强了模型的稳定性、灵活性和可扩展性。

关键观点4: 实验结果表明Lumina-T2I具有优越性能。

该模型能够生成任意宽高比的图像，具有优秀的分辨率视觉质量和保真度。

文章预览

看起来是可以在大幅提高生成质量的前提下大幅减少训练成本，而且同一个架构支持不同的内容生成。图像质量相当不错。由 50 亿参数的 Flag-DiT 驱动的 Lumina-T2I，其训练计算成本仅为同类 6 亿参数模型的 35%。目前放出了 Lumina-T2I 图像生成模型，模型主干是Large-DiT、文本编码模型是 Llama2-7B 、VAE 用的 SDXL的。相关链接论文链接：https://arxiv.org/pdf/2405.05945 模型下载：https://huggingface.co/Alpha-VLLM/Lumina-T2I 论文阅读摘要 Sora揭示了缩放扩散变压器（DIT）的潜力以任意分辨率，宽高比和持续时间为单位的影像图像和视频，但仍然缺乏足够的实施细节。在这份技术报告中，我们介绍了Lumina-T2X家族 - 一系列配备零定位注意的基于流动的大扩散变压器（FLAG-DIT），作为一个统一的框架，旨在将噪声转换为图像，视频，多视图 3D对象和音频剪辑以文本说明为条 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博