腾讯SEED-Story：生成丰富、叙事连贯及风格一致图文故事的大模型

PaperAgent · 公众号 · · 2024-07-16 11:41

文章预览

SEED-Story 由MLLM驱动，能够从用户提供的图片和文本作为故事的开始，生成多模态长篇故事，模型、代码与数据都已开源。生成的故事包括丰富且连贯的叙事文本，以及在角色和风格上保持一致的图片。故事可以跨越多达 2 5个多模态序列，尽管在训练期间仅使用最多10个序列。 SEED-Story训练过程包括三个阶段：在第一阶段，我们预训练一个基于SD-XL的去标记化器，通过接受预训练的ViT的特征作为输入来重建图片。在第二阶段，我们采样一个随机长度的交错图像-文本序列，并通过对目标图像的ViT特征和可学习查询的输出隐藏状态之间的下一个词预测和图像特征回归来训练MLLM。在第三阶段，从MLLM回归得到的图像特征被输入到去标记化器中，以调整SD-XL，增强生成图片中角色和风格的一致性。左侧：在多模态故事生成中预测下一个词时的注意力图可 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

低吸波段王 · 3月13日神行午盘

10 小时前

低吸波段王 · 3月13日神行午盘

10 小时前

福州新闻网 · 华为，突传消息！

2 天前

福州新闻网 · 华为，突传消息！

2 天前

山西市场监管 · 全省产品质量安全监管工作会在太原召开

2 天前

山西市场监管 · 全省产品质量安全监管工作会在太原召开

2 天前

普象工业设计小站 · 能当小煮锅的烧水壶，一个满足n个需求

2 天前

普象工业设计小站 · 轻松开启贵妇护肤！SK-Ⅱ入门体验装，保shi咻护一套搞定！

3 天前

新浪科技 · 【购买正品退还假货，#美国捣毁大规模苹果退款欺诈团伙# 】#美国-20240801073224

7 月前

四川日报 · 一场高中同学聚会，4人全栽了！处罚超2000万

6 月前

爱可可-爱生活 · 本文提出批量调度采样(BASH)和基于参考答案的校正(RAC)两-20241022051959

4 月前

壁纸备忘录 · Date21/11/18 | 壁纸

3 月前

九派新闻 · 结婚三周年纪念日，具俊晔发视频悼念大S

1 月前