今天看啥  ›  专栏  ›  GitHubStore

腾讯推出会写图文故事的模型SEED-Story

GitHubStore  · 公众号  ·  · 2024-07-16 13:04

文章预览

项目简介 引入的 SEED-Story 由 MLLM 提供支持,能够根据用户提供的图像和文本生成多模式长故事作为故事的开头。生成的故事由丰富且连贯的叙述文本以及人物和风格一致的图像组成。尽管我们在训练期间最多只使用 10 个序列,但该故事最多可以跨越 25 个多模式序列。 给定相同的初始图像但不同的开头文本,SEED-Story 可以生成不同的多模式故事。顶部分支以引用“黄帽子人”的文本开始,导致包含该角色的图像。最下面的分支一开始就没有提及这个人,导致故事与第一个分支不同,将他排除在外。 方法 在第 1 阶段,我们预训练基于 SD-XL 的去标记器,通过将预训练 ViT 的特征作为输入来重建图像。 在第 2 阶段,我们对随机长度的交错图像文本序列进行采样,并通过在可学习查询的输出隐藏状态和目标图像的 ViT 特征之间执行下一个单词预测和图像 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览