专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
今天看啥  ›  专栏  ›  自动驾驶之心

图像生成迎来CoT时刻,港中文首次提出文生图o1推理新范式

自动驾驶之心  · 公众号  ·  · 2025-02-06 07:30
    

文章预览

作者 | Ziyu Guo等 点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >> 点击进入→ 自动驾驶之心 『 图像生成 』 技术交流群 本文只做学术分享,如有侵权,联系删文 Paper link:https://arxiv.org/pdf/2501.13926 Project link:https://github.com/ZiyuGuo99/Image-Generation-CoT Author: Ziyu Guo,  Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao,  Peng Gao, Hongsheng Li, Pheng-Ann Heng 随着OpenAI o1展示了思维链Chain-of-Thought(CoT)对于大模型推理能力的强大提升,各种基于强化学习RL和Test Time Scaling的方案已经在大模型理解领域取得了很大的进展。然而,在图像生成(Image Generation)领域,如文生图(Text-to-Image)及文生视频(Text-to-Video),是否也可以借鉴CoT相关的策略,来提升图片或视频的质量和文本一致性? 来自香港中文大学、北京大学、和上海AI Lab的研究者 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览