专栏名称: PaperAgent
日更,解读AI前沿技术热点Paper
今天看啥  ›  专栏  ›  PaperAgent

Qwen2-VL发布,支持复杂推理与决策的可视化Agent!

PaperAgent  · 公众号  ·  · 2024-08-30 13:29

文章预览

阿里发布 Qwen2-VL, 开源了Qwen2-VL-2B和Qwen2-VL-7B, 72B型号后续推出, Qwen2-VL是Qwen模型系列中视觉语言模型的最新版本。 SoTA 对各种分辨率和比例的图像的理解 :Qwen2-VL 在视觉理解基准上实现了最先进的性能,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。 理解 20 分钟以上的视频 :借助在线流媒体功能,Qwen2-VL 可以通过基于高质量视频的问答、对话、内容创作等方式理解 20 分钟以上的视频。 可以操作你的手机、机器人等的 Agent :Qwen2-VL 具有复杂的推理和决策能力,可以与手机、机器人等设备集成,根据视觉环境和文本指令进行自动操作。 多语言支持 :为了服务全球用户,除了英语和中文,Qwen2-VL 现在还支持理解图像中不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等 模型架构更新: 简单的动态分辨率: 与以前不同,Qwen2-VL 可 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览