文生图参数量升至240亿！Playground v3发布：深度融合LLM，图形设计能力超越人类

机器学习研究组订阅 · 公众号 · AI · 2024-10-07 19:28

文章预览

自去年以来，文本到图像生成模型取得了巨大进展，模型的架构从传统的基于UNet逐渐转变为基于Transformer的模型。 Playground Research最近发布了一篇论文，详细介绍了团队最新的、基于DiT的扩散模型Playground v3（简称PGv3），将模型参数量扩展到240亿，在多个测试基准上达到了最先进的性能，更擅长图形设计。论文链接： https://arxiv.org/abs/2409.10695 数据链接： https://huggingface.co/datasets/playgroundai/CapsBench 与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同，PGv3完全集成了大型语言模型（LLMs），基于全新的深度融合（Deep-Fusion）架构，利用仅解码器（decoder-only）大型语言模型的知识，来进行文本到图像生成任务。此外，为了提高图像描述的质量，研究人员开发了一个内部描述生成器（in-house captioner），能够生成不同详细程度的描述， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【Agentic CursorRules：一个实用的AI智能体管-20241127131439

昨天

爱可可-爱生活 · 【llm_note：一个全面的大语言模型(LLM)技术学习笔记库-20241127132137

昨天

爱可可-爱生活 · [LG] A Survey on LLM-as-a-Judge -20241127055730

2 天前

爱可可-爱生活 · [CL]《Arithmetic Without Algorith-20241126053815

3 天前

爱可可-爱生活 · #转发赠书#携手@图灵新知 @图灵文化送出3本《万物皆计算》，-20241123101301

6 天前

野生运营社区 · 需要聊一聊，外包接项目这件事

4 月前

三联生活周刊 · 当社畜的所有委屈，化作一句“好的，领导”

3 月前

富士康工会 · 富士康关爱员工大动作，持续至11月

3 月前