文章预览
论文地址 :https://arxiv.org/pdf/2409.04828 论文源码 :https://github.com/WePOINTS/WePOINTS 项目主页 :https://huggingface.co/papers/2409.04828 导读 2022年11月30日,OpenAI推出了ChatGPT,最初仅是在业界的小范围内引起了关注。几个月后,GPT-4.0的发布彻底点燃了整个行业并从此进入了普罗大众的视野。经过一年的发展,大家逐渐意识到单纯的LLM已无法满足需求,这一点从各大厂商和顶尖科研机构发布的成果中可以看出,人工智能正朝着VLM的方向发展。 今年,各路大神纷纷亮出自家的视觉语言模型,仿佛一场科技界的选美大赛。首当其冲的便是著名的闭源明星选手如 GPT-4、Gemini Pro 1.5和Claude 3 等模型,其成功将 LLM 扩展到视觉语言模型领域。而 LLaVA、QwenVL、InternVL 等开源届的代表新秀也不甘示弱,各方面能力也在不断赶超、逼近甚至部分超越闭源模型。 然而,这场视觉AI的狂
………………………………