专栏名称: 魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
今天看啥  ›  专栏  ›  魔搭ModelScope社区

Deepseek开源多模态LLM模型框架Janus,魔搭社区最佳实践

魔搭ModelScope社区  · 公众号  ·  · 2024-10-22 18:37

文章预览

01 引言 deepseek近期推出了简单、统一且灵活的多模态框架Janus,它能够统一处理多模态理解和生成任务。与之前的研究不同的是,Janus将视觉编码解耦为独立的路径,并利用单一、统一的transformer架构进行处理。这种方法不仅缓解了视觉编码器在理解和生成任务中的冲突,还增强了框架的灵活性。 Janus采用了独立编码方法将纯文本理解、多模态理解和视觉生成分别转换为特征序列,并通过一个统一的自回归Transformers处理这些特征序列。对于纯文本理解任务,使用预训练模型中的分词器将文本转换为离散ID并获取每个ID对应的特征表示;对于多模态理解任务,使用SigLIP编码器从图像中提取高维语义特征并将它们展平成一维序列,然后使用理解适配器将这些图像特征映射到预训练模型的输入空间;对于视觉生成任务,使用VQ Tokenizer 将图像转换为离散ID,并 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览