专栏名称: AIWalker
关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营,原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。
今天看啥  ›  专栏  ›  AIWalker

Janus-Pro开源发布!多模态理解和生成统一新架构!

AIWalker  · 公众号  ·  · 2025-02-07 22:00
    

文章预览

关注 「 AIWalker 」 并 星标 从此AI不迷路 来源 | 数源AI  作者 | 小源   论文名:Janus-Pro: UnifiedMultimodalUnderstanding and Generation with Data and Model Scaling 论文链接: https://arxiv.org/pdf/2501.17811 开源代码:https://github.com/deepseek-ai/Janus 导读 统一多模态理解和生成模型的最新进展显示出显著的进步。这些方法已被证明能够增强视觉生成任务中的指令跟随能力,同时减少模型冗余。这些方法大多数利用相同的视觉编码器来处理多模态理解和生成任务的输入。由于这两项任务所需的表示不同,这通常导致多模态理解中的次优性能。为了解决这个问题,Janus提出了视觉编码的解耦,这缓解了多模态理解和生成任务之间的冲突,在这两项任务中都取得了优异的性能。 简介 在这项工作中,我们介绍了 Janus-Pro,这是之前工作 Janus 的高级版本。具体而言,Janus-Pro 包括 (1) 优化 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览