专栏名称: AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
今天看啥  ›  专栏  ›  AIGC Studio

Lumina-T2X:一个使用DiT架构的内容生成模型,可由文本生成图像、视频、多视角3D对象和音频剪辑。

AIGC Studio  · 公众号  ·  · 2024-06-23 07:00

文章预览

看起来是可以在大幅提高生成质量的前提下大幅减少训练成本,而且同一个架构支持不同的内容生成。图像质量相当不错。 由 50 亿参数的 Flag-DiT 驱动的 Lumina-T2I,其训练计算成本仅为同类 6 亿参数模型的 35%。 目前放出了 Lumina-T2I 图像生成模型,模型主干是Large-DiT、文本编码模型是 Llama2-7B 、VAE 用的 SDXL的。 相关链接 论文链接:https://arxiv.org/pdf/2405.05945 模型下载:https://huggingface.co/Alpha-VLLM/Lumina-T2I 论文阅读 摘要 Sora揭示了缩放扩散变压器(DIT)的潜力 以任意分辨率,宽高比和持续时间为单位的影像图像和视频,但仍然缺乏足够的实施细节。 在这份技术报告中,我们介绍了Lumina-T2X家族 - 一系列配备零定位注意的基于流动的大扩散变压器(FLAG-DIT),作为一个统一的框架,旨在将噪声转换为图像,视频,多视图 3D对象和音频剪辑以文本说明为条 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览