ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器

魔搭ModelScope社区 · 公众号 · · 2024-09-12 19:16

文章预览

01 引言通过生成图片/视频数据高度吻合的详细的文本描述来构建海量的高质量视频文本对，使得训练出的模型指令遵循度高，非常重要。实际上无论图片/视频理解，还是图片/视频生成任务，都离不开高质量的图片/视频-文本数据。比起静态图片，视频提供了更为丰富的动态视觉内容，包括动作，时间，变化以及实体之间的动态关系。分析这些复杂的视频，难度超过了传统图像理解模型。得益于近期视觉大模型的进展，越来越多的视觉多模态大模型支持视频理解。今天我们把ComfyUI工具和多模态LLM结合，在魔搭的免费算力上搭建出支持单图理解，多图理解，视频理解的WebUI界面，更好的支持开发者快速搭建一个视频/图片页面打标器。参考链接： Qwen2-VL： https://github.com/IuvenisSapiens/ComfyUI_Qwen2-VL-Instruct MiniCPM-V-2_6： https://github.com/IuvenisSapiens/ComfyUI_MiniCP ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博