刚刚，腾讯混元开源图生视频，求求多加点卡吧

夕小瑶科技说 · 公众号 · · 2025-03-07 00:53

主要观点总结

本文主要介绍了阿里和腾讯在人工智能领域的最新进展。阿里发布了Qwen QwQ 32B模型，引起了热议。同时，腾讯宣布开源了混元图生视频模型，并提供了相关链接供读者了解更多信息。该模型能够实现图像创意转化为视频，具有对口型和跳舞等高级功能。文章还对该模型的效果进行了评价，指出其符合物理规律的部分和仍存在的不完美之处。

关键观点总结

关键观点1: 阿里发布Qwen QwQ 32B模型

该模型引起了热议，被认为可以媲美甚至超过R1模型，但遭遇了其他模型的竞争。

关键观点2: 腾讯开源混元图生视频模型

该模型能够实现图生视频功能，并具有对口型和跳舞等高级玩法。文章对其效果进行了评价，指出其能够较好地完成任务，但仍存在一些细节上的不完美。

关键观点3: 模型的技术架构

使用了预训练的Decoder-Only架构多模态大语言模型（MLLM）作为文本编码器，增强了模型对输入图像语义内容的理解能力，实现了图像与文本描述信息的深度融合。

文章预览

最近这些搞 AI 的公司都喜欢偷袭。阿里在凌晨毫无征兆的放出了 Qwen QwQ 32B 模型。一天下来我看到 family 群里的小伙伴在不停地讨论。听说可以媲美 R1，还略胜一筹。但是不凑巧，它撞上 Manus 了。立马坐实 “AI 届汪峰” 名号。就像瓜田里的猹，真的是吃了一天的瓜，Manus 还没发酵完，下午，腾讯跟上了，直接宣布开源了混元图生视频模型。模型的权重和测试代码已经上传 Huggingface 和 Github 了。官网: https://video.hunyuan.tencent.com/ HuggingFace 模型地址: https://huggingface.co/tencent/HunyuanVideo-I2V Github 项目地址: https://github.com/Tencent/HunyuanVideo-I2V/ 官网上，图生视频功能现在可以免费使用了。上传一张图片，输入视频创意，就可以让图像按照创意的要求运动起来，对于画面中的人物，还有“对口型” 和 “跳舞” 这两个高级玩法。效果是这样的—— 还 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博