图像生成迎来CoT时刻，港中文首次提出文生图o1推理新范式

自动驾驶之心 · 公众号 · · 2025-02-06 07:30

文章预览

作者 | Ziyu Guo等点击下方卡片，关注“ 自动驾驶之心 ”公众号戳我-> 领取自动驾驶近15个方向学习路线 >> 点击进入→ 自动驾驶之心『图像生成』技术交流群本文只做学术分享，如有侵权，联系删文 Paper link：https://arxiv.org/pdf/2501.13926 Project link：https://github.com/ZiyuGuo99/Image-Generation-CoT Author： Ziyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng 随着OpenAI o1展示了思维链Chain-of-Thought（CoT）对于大模型推理能力的强大提升，各种基于强化学习RL和Test Time Scaling的方案已经在大模型理解领域取得了很大的进展。然而，在图像生成（Image Generation）领域，如文生图（Text-to-Image）及文生视频（Text-to-Video），是否也可以借鉴CoT相关的策略，来提升图片或视频的质量和文本一致性？来自香港中文大学、北京大学、和上海AI Lab的研究者 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博