今天看啥  ›  专栏  ›  人工智能前沿讲习

Dimba 混合 Transformer-Mamba 架构的文本到图像扩散模型,为文本到图像生成带...

人工智能前沿讲习  · 公众号  ·  · 2024-06-19 18:00
    

文章预览

这篇论文介绍了Dimba,一个全新的文本到图像扩散模型,它采用了一种独特的混合架构,结合了Transformer和Mamba元素。 具体来说,Dimba逐序堆叠的块在Transformer和Mamba层之间交替,并通过交叉注意力层整合条件信息,从而利用了两种架构范式的优势。 作者研究了几种优化策略,包括质量调整、分辨率适应,并确定了大规模图像生成所需的关键配置。该模型灵活的设计支持针对特定资源限制和目标的场景。 适当地扩展后,Dimba相对于传统的基于纯Transformer的基准提供了显著的高吞吐量和较小的内存占用。广泛的实验表明,Dimba在图像质量、艺术渲染和语义控制方面与基准相比具有可比的性能。 作者还报告了在评估过程中发现的结构的一些有趣特性,并在实验中发布了预训练权重。 作者的发现强调了在大规模扩散模型的基础阶段,混合Transformer-Mamba架构的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览