DeepSeek新作Janus：解耦视觉编码，引领多模态理解与生成统一新范式

机器之心 · 公众号 · AI · 2024-10-22 13:01

文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com 论文: https://arxiv.org/pdf/2410.13848 项目主页：https://github.com/deepseek-ai/Janus 模型下载：https://huggingface.co/deepseek-ai/Janus-1.3B 在线 Demo：https://huggingface.co/spaces/deepseek-ai/Janus-1.3B 1. 太长不看版我们提出了 Janus，一种基于自回归的多模态理解与生成统一模型。Janus 的核心思想是对理解和生成任务的视觉编码进行解耦，在提升了模型的灵活性的同时，有效缓解了使用单一视觉编码导致的冲突和性能瓶颈。实验表明，Janus 超越了此前的统一模型的效果，并取得了和纯理解 / 纯生成模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 回复@CC女士不是西西://@CC女士不是西西:个人经验：承担A-20250117131250

昨天

量子位 · SpaceX最新发射功败垂成！“筷子夹火箭”熟练成功，但星舰却解体了

昨天

爱可可-爱生活 · 【[171星]AutoMouser：一个 Chrome 扩展程序-20250116175025

昨天

爱可可-爱生活 · 【[278星]llm-cmd：能在终端中使用LLM生成并执行命令-20250116141455

2 天前

量化投资与机器学习 · QIML的小红书：一些有趣的内容

2 天前

每日人物 · “催生办主任”梁建章：生孩子也是一种创新

7 月前

维科网光伏 · 重磅！这一光伏国企总经理被查

1 月前

锦缎 · 沙盘推演中国美妆市场2025

2 周前