文章预览
阿里发布 Qwen2-VL, 开源了Qwen2-VL-2B和Qwen2-VL-7B, 72B型号后续推出, Qwen2-VL是Qwen模型系列中视觉语言模型的最新版本。 SoTA 对各种分辨率和比例的图像的理解 :Qwen2-VL 在视觉理解基准上实现了最先进的性能,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。 理解 20 分钟以上的视频 :借助在线流媒体功能,Qwen2-VL 可以通过基于高质量视频的问答、对话、内容创作等方式理解 20 分钟以上的视频。 可以操作你的手机、机器人等的 Agent :Qwen2-VL 具有复杂的推理和决策能力,可以与手机、机器人等设备集成,根据视觉环境和文本指令进行自动操作。 多语言支持 :为了服务全球用户,除了英语和中文,Qwen2-VL 现在还支持理解图像中不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等 模型架构更新: 简单的动态分辨率: 与以前不同,Qwen2-VL 可
………………………………