Qwen2-VL发布，支持复杂推理与决策的可视化Agent！

PaperAgent · 公众号 · · 2024-08-30 13:29

文章预览

阿里发布 Qwen2-VL，开源了Qwen2-VL-2B和Qwen2-VL-7B， 72B型号后续推出， Qwen2-VL是Qwen模型系列中视觉语言模型的最新版本。 SoTA 对各种分辨率和比例的图像的理解：Qwen2-VL 在视觉理解基准上实现了最先进的性能，包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。理解 20 分钟以上的视频：借助在线流媒体功能，Qwen2-VL 可以通过基于高质量视频的问答、对话、内容创作等方式理解 20 分钟以上的视频。可以操作你的手机、机器人等的 Agent ：Qwen2-VL 具有复杂的推理和决策能力，可以与手机、机器人等设备集成，根据视觉环境和文本指令进行自动操作。多语言支持：为了服务全球用户，除了英语和中文，Qwen2-VL 现在还支持理解图像中不同语言的文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等模型架构更新：简单的动态分辨率：与以前不同，Qwen2-VL 可 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博