开源版SearchGPT来了，两张3090就可复现，超越Perplexity付费版

量子位 · 公众号 · AI · 2024-11-12 12:12

主要观点总结

本文介绍了VSA团队推出的Vision Search Assistant，一个基于视觉语言模型（VLM）的技术，巧妙地将Web搜索能力融入其中。该技术能够回答有关未见过的图像或新概念的问题，并将多模态研究推向新的高度。文章还介绍了其关键技术和实验结果。

关键观点总结

关键观点1: Vision Search Assistant介绍

VSA团队推出了基于视觉语言模型（VLM）的Vision Search Assistant，能够处理图像、文字以及二者结合的搜索任务，将多模态研究推向新的高度。

关键观点2: 核心技术

Vision Search Assistant结合了视觉内容描述模块和Web知识搜索模块，利用开放域的检测模型和预训练的VLM模型，对图像进行区域检测、描述和搜索，最终基于原始图像、视觉描述和Web知识回答用户的问题。

关键观点3: 实验结果

在开放集问答评估中，Vision Search Assistant在真实性、相关性和支持性三个关键维度上均表现出色，显著优于其他模型。在封闭集问答评估中，Vision Search Assistant也表现出最强的性能，特别是在细节类别和推理方面得分较高。

文章预览

VSA团队投稿量子位 | 公众号 QbitAI OpenAI推出SearchGPT没几天，开源版本也来了。港中文MMLab、上海AI Lab、腾讯团队简易实现了 Vision Search Assistant ，模型设计简单，只要两张RTX3090 就可复现。 Vision Search Assistant（VSA）以视觉语言模型（VLM）为基础，巧妙地将Web搜索能力融入其中，让VLM内部的知识得到实时更新，使其更加灵活和智能。目前，VSA已经针对通用图像进行了实验，可视化和量化结果良好。但不同类别的图像各具特色，还可以针对不同种类的图像（比如表格、医学等）构建出更为特定的VSA应用。更令人振奋的是，VSA的潜力并不仅限于图像处理。还有更广阔的可探索空间，比如视频、3D模型和声音等领域，期待能将多模态研究推向新的高度。让VLM处理未见过的图像和新概念大型语言模型（LLM）的出现让人类可以利用模型的强大零样本问答能力 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【[136星]CocoIndex：开源的数据提取、转换和索引引擎-20250309183208

昨天

黄建同学 · Maxime Labonne与Huggingface和Ben B-20250309085235

昨天

飞总聊IT · 一个邀请码卖10万，Manus这个炒AI的大猪蹄子。。。

2 天前

飞总聊IT · 一个邀请码卖10万，Manus这个炒AI的大猪蹄子。。。

2 天前

Hacking黑白红 · 从“AI新星”到“封号争议”：Manus的48小时魔幻坠落

3 天前

Hacking黑白红 · 从“AI新星”到“封号争议”：Manus的48小时魔幻坠落

3 天前

新智元 · Karpathy带火「Vibe Coding」！YC证实：1/4新初创，95%代码全由AI生成

3 天前

LADYMAX · 深度 | Burberry回归外套，但要先绕过Barbour？

3 月前

简放 · 稳定亏损者

3 月前

第一财经 · 科创突围“向上”，产业升级“向新”：2024第一财经资本年会下周举行

2 月前

重回阳光 · 好文！戒Se三年半身心的变化！

2 月前