文章预览
良心Qwen,开源了Qwen2-VL的2B和7B,72B需要API调用暂未开源。 该说不说Qwen系列模型真的是在开源路上一骑绝尘,全全全! vl、audio、text连续更新,kpi直接拉满! HF: https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d Blog: https://qwenlm.github.io/blog/qwen2-vl/ 啥也不说,先看榜单。 72B效果 7B效果 对比Qwen-VL Qwen2-VL相比Qwen-VL,有如下改进: 适配不同分辨率和不同长宽比的图片 长视频理解:可以理解20分钟以上的长视频 更强的复杂推理和决策的能力,可根据视觉环境和文字指令进行自动操作手机、机器人等设备 支持除英语和中文外,也支持大多数欧洲语言、日语、韩语、阿拉伯语、越南语等多语言 模型结构上ViT加Qwen2的串联结构,在三个不同尺度的模型上,均采用600M的ViT,支持图像和视频统一输入。 实现了对原生动态分辨率的全面支持,不同大小图片被
………………………………