GenMAC：基于多代理协作的组合文本到视频生成框架

ADFeed · 公众号 · · 2025-01-03 11:15

文章预览

GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration 介绍： https://karine-h.github.io/GenMAC/ 论文： https://arxiv.org/abs/2412.04440v1 GenMAC 是一种创新的文本到视频生成框架，它通过多代理协作来处理复杂的组合文本提示，生成动态视频内容。 GenMAC 框架包含设计、生成和重设计三个阶段，其中重设计阶段通过任务分解，由多个专业代理顺序执行，以提高视频与文本提示的对齐度。这一方法特别关注于多对象、属性绑定、时间动态性以及对象间交互等复杂场景的生成，显著提升了生成视频的准确性和可靠性。与现有模型相比，GenMAC 的特点在于其迭代式的设计和多代理协作机制。它不仅能够逐步精细化视频内容，以更好地符合文本提示，还能够通过自路由机制适应性地选择最适合当前场景的修正代理。这种方法论的创新使得GenMAC在处理复杂的视频生成任 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博