文章预览
作者 | Ziyu Guo等 点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >> 点击进入→ 自动驾驶之心 『 图像生成 』 技术交流群 本文只做学术分享,如有侵权,联系删文 Paper link:https://arxiv.org/pdf/2501.13926 Project link:https://github.com/ZiyuGuo99/Image-Generation-CoT Author: Ziyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Peng Gao, Hongsheng Li, Pheng-Ann Heng 随着OpenAI o1展示了思维链Chain-of-Thought(CoT)对于大模型推理能力的强大提升,各种基于强化学习RL和Test Time Scaling的方案已经在大模型理解领域取得了很大的进展。然而,在图像生成(Image Generation)领域,如文生图(Text-to-Image)及文生视频(Text-to-Video),是否也可以借鉴CoT相关的策略,来提升图片或视频的质量和文本一致性? 来自香港中文大学、北京大学、和上海AI Lab的研究者
………………………………