专栏名称: 智见AGI
神州问学公众号是围绕生成式AI技术的交流社区,与开发者和合作伙伴共同探究有深度的生成式AI技术前沿洞见、技术迭代、案例解析、方法和实践,助力企业的数字化转型
今天看啥  ›  专栏  ›  智见AGI

超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话

智见AGI  · 公众号  ·  · 2024-08-30 17:50

文章预览

来源 | 量子位 新的最强开源多模态大模型来了! 阿里Qwen2大模型家族新添多模态模型 Qwen2-VL ,在图像和长视频理解任务上双双取得了SOTA。 在具体的子类任务中,Qwen2-VL在大部分的指标上都达到了最优,甚至超过 GPT-4o等闭源模型。 在多模态能力的加持下,Qwen2-VL可以实时读取摄像头或电脑屏幕,进行文字形式的视频对话。                                                                              甚至还能作为Agent与环境进行交互,根据任务目标自主操控手机等设备。                 此次发布的Qwen2共有2B、7B、72B三个版本,其中2B和7B版本已可下载并免费商用(Apache 2.0),72B则通过API提供。 目前开源代码已集成到Hugging Face Transformers、vLLM等第三方框架中。 还有不少网友都在狂cue一些知名大模型推理平台,如Groq、Ollama,希望能够早日 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览