今天看啥  ›  专栏  ›  PaperAgent

清华、北大与微软推出Glyph-ByT5-v2:渲染高视觉美感文本,海报惊艳,媲美DALL-E3!

PaperAgent  · 公众号  ·  · 2024-06-19 17:02
    

文章预览

微软亚洲研究院、清华大学、北京大学、利物浦大学 联合推出 功能强大的定制多语言文本编码器 Glyph-ByT5-v2 和功能强大的美观图形生成模型 Glyph-SDXL-v2 ,它们可以支持 10 种不同语言的准确拼写。 考虑到最新的 DALLE-3 和Ideogram 仍然难以完成 多语言视觉文本渲染任务,该工作是一项重大进步。 Glyph-ByT5-v2+ Glyph-SDXL-v2 效果展示 Glyph-ByT5-v2+Glyph-SDXL-v2 方法进行多语言视觉文本渲染的结果。 分别在第1行、第2行、第3行、第4行和第5行展示了法语、西班牙语、中文、日语和韩语的视觉文本结果。 竞品:DALL·E3和Ideogram 1.0生成的多语言结果的可视化展示,效果不佳 应用步骤感知偏好优化(SPO)后训练的效果 。按顺序展示的图像由以下几行生成:第一行是Glyph-SDXL生成的图像,第二行是Glyph-SDXL Albedo生成的图像,最后一行是Glyph-SDXL Albedo加上SPO生成的图像。 Glyph-B ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章