文章预览
“ SEED-Story: Multimodal Long Story Generation with Large Language Model ” 港科大联合腾讯推出了一个多模态长故事生成模型SEED-Story。SEED-Story可以基于图片和文本,生成丰富、连贯叙事及风格一致的图片长故事。源码已开源! 论文地址 :https://arxiv.org/pdf/2407.08683 Github地址 :https://github.com/TencentARC/SEED-Story 摘要 图像生成和文本生成的显著进展推动了交织图像文本内容的创作,多模态故事生成成为一个引人注目的领域。SEED-Story是一种新方法,利用多模态大语言模型生成扩展的多模态故事。模型预测文本和视觉标记,并通过视觉去标记器生成一致的图像。本文提出多模态注意力机制,实现高效生成长序列故事。发布了模型、代码和StoryStream数据集。 简介 SEEDStory是一种新方法,利用Multimodal Large Language Models(MLLMs)的理解能力,生成连续的图像和文本。该方法采用预
………………………………