连接人工智能技术人才和产业人才的交流平台
今天看啥  ›  专栏  ›  机器学习研究组订阅

文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类

机器学习研究组订阅  · 公众号  · AI  · 2024-10-07 19:28

文章预览

自去年以来,文本到图像生成模型取得了巨大进展,模型的架构从传统的基于UNet逐渐转变为基于Transformer的模型。 Playground Research最近发布了一篇论文,详细介绍了团队最新的、基于DiT的扩散模型Playground v3(简称PGv3),将模型参数量扩展到240亿,在多个测试基准上达到了最先进的性能,更擅长图形设计。 论文链接: https://arxiv.org/abs/2409.10695 数据链接: https://huggingface.co/datasets/playgroundai/CapsBench 与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同,PGv3完全集成了大型语言模型(LLMs),基于全新的深度融合(Deep-Fusion)架构,利用仅解码器(decoder-only)大型语言模型的知识,来进行文本到图像生成任务。 此外,为了提高图像描述的质量,研究人员开发了一个内部描述生成器(in-house captioner),能够生成不同详细程度的描述, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览