Qwen2-VL：阿里开源新型世界领先视觉智能体，主打人类级别任意分辨率图像处理

AI寒武纪 · 公众号 · · 2024-08-30 12:13

文章预览

阿里云又来炸场了！他们刚刚开源了新一代视觉语言模型Qwen2-VL，而且一口气发布了20亿参数和70亿参数两个版本，还开放了最强720亿参数版本的API！这波操作简直6到飞起！🚀 Qwen2-VL 究竟有多牛？看得清，看得懂： Qwen2-VL 在各种视觉理解任务上都取得了 SOTA 成绩，包括 MathVista、DocVQA、RealWorldQA、MTVQA 等等。无论是图像分辨率还是长宽比，都难不倒它 20分钟长视频也不怕： Qwen2-VL 能理解超过 20 分钟的视频，可以用来做高质量的视频问答、对话、内容创作等等可操作手机、机器人等的Agent ： Qwen2-VL 还能跟手机、机器人等设备结合，实现自动操作！它强大的推理和决策能力，加上对视觉环境和文本指令的理解，让它成为真正的“智能管家” 多语言支持，全球用户都能用：除了英语和中文，Qwen2-VL 现在还支持识别图像中的多种语言文本，包括大 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博