专栏名称: PaperAgent
日更,解读AI前沿技术热点Paper
今天看啥  ›  专栏  ›  PaperAgent

腾讯SEED-Story:生成丰富、叙事连贯及风格一致图文故事的大模型

PaperAgent  · 公众号  ·  · 2024-07-16 11:41

文章预览

SEED-Story 由MLLM驱动,能够从用户提供的图片和文本作为故事的开始,生成多模态长篇故事, 模型、代码与数据都已开源 。生成的故事包括 丰富且连贯的叙事文本,以及在角色和风格上保持一致的图片 。故事可以跨越多达 2 5个多模态序列 ,尽管在训练期间仅使用最多10个序列。 SEED-Story训练过程包括三个阶段: 在第一阶段,我们预训练一个基于SD-XL的去标记化器,通过接受预训练的ViT的特征作为输入来重建图片。 在第二阶段,我们采样一个随机长度的交错图像-文本序列,并通过对目标图像的ViT特征和可学习查询的输出隐藏状态之间的下一个词预测和图像特征回归来训练MLLM。 在第三阶段,从MLLM回归得到的图像特征被输入到去标记化器中,以调整SD-XL,增强生成图片中角色和风格的一致性。 左侧 :在多模态故事生成中预测下一个词时的注意力图可 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览