能理解 20 分钟长视频的 Qwen2-VL 来了！

特工宇宙 · 公众号 · · 2024-08-30 15:18

文章预览

以下内容摘录自官网，点击「阅读原文」可查看原博客。经历了接近一年时间的持续努力，今天我们很高兴地宣布最新一代的视觉语言模型： Qwen2-VL！ Qwen2-VL 基于 Qwen2 打造，相比 Qwen-VL，它具有以下特点： 1. 读懂不同分辨率和不同长宽比的图片：Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。 2. 理解 20 分钟以上的长视频：Qwen2-VL 可理解长视频，并将其用于基于视频的问答、对话和内容创作等应用中。 3. 能够操作手机和机器人的视觉智能体：借助复杂推理和决策的能力，Qwen2-VL 可集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作。 4. 多语言支持：为了服务全球用户，除英语和中文外，Qwen2-VL 现在还支持理解图像中的多语言文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博