文章预览
以下内容摘录自官网,点击「阅读原文」可查看原博客。 经历了接近一年时间的持续努力,今天我们很高兴地宣布最新一代的视觉语言模型: Qwen2-VL! Qwen2-VL 基于 Qwen2 打造,相比 Qwen-VL,它具有以下特点: 1. 读懂不同分辨率和不同长宽比的图片 :Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中取得了全球领先的表现。 2. 理解 20 分钟以上的长视频 :Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。 3. 能够操作手机和机器人的视觉智能体 :借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。 4. 多语言支持 :为了服务全球用户,除英语和中文外,Qwen2-VL 现在还支持理解图像中的多语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南
………………………………