专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

MMSearch:新坑来了!多模态大模型也可以作为搜索引擎了?

极市平台  · 公众号  · 科技创业 科技自媒体  · 2024-09-26 22:00

主要观点总结

本文主要介绍了关于多模态大型语言模型(LLMs)在人工智能搜索引擎中的应用研究。文章讨论了如何将多模态LLMs应用到搜索引擎中,特别是在处理包含图像查询和用户查询的多模态性质时的重要性。重点介绍了MMSEARCH-ENGINE框架和其关键设计和数据组成,包括问题重构、网页排序和答案总结三个阶段。同时,文章还介绍了MMSearch测试集的设计和评估标准,以及实验结论。最后,文章还讨论了数据集更新、实验与结论等内容。

关键观点总结

关键观点1: MMSEARCH-ENGINE框架的引入及其重要性

为了赋予任何大型多模态模型(LMMs)多模态搜索能力,研究团队提出了MMSEARCH-ENGINE框架。该框架不仅支持包含图像的查询,还同时输入文本和视觉的网页信息,确保全面理解网页内容。它包括问题重构、网页排序和答案总结三个关键阶段,充分利用了LMMs的多模态信息理解能力。

关键观点2: MMSearch测试集的设计和评估标准

为了评估LMMs在多模态搜索中的性能,研究团队设计了MMSearch测试集。该测试集包含300个精心选择的问题,覆盖14个子领域,分为新闻和知识两大类。其设计目的是全面评估LMM在多模态搜索中的各项能力,从查询生成到结果分析的全过程都被纳入考量。

关键观点3: 实验结论和发现

实验结果显示,高分辨率输入并没有为大部分LMM带来明显的性能增益。LMM在问题重构与网页排序能力上有明显欠缺。闭源与开源LMM模型仍有显著的性能差距。MMSEARCH-Engine在端到端任务中超越了商业AI搜索引擎Perplexity Pro。此外,研究者发现通过扩展测试时计算,可以显著提高模型的端到端任务得分。


文章预览

↑ 点击 蓝字  关注极市平台 编辑丨极市平台 极市导读   首篇将多模态llm应用到AI搜索引擎的新工作!  >> 加入极市CV技术交流群,走在计算机视觉的最前沿 论文: https://arxiv.org/pdf/2409.12959 主页: https://mmsearch.github.io 代码: https://github.com/CaraJ7/MMSearch 数据集: https://huggingface.co/datasets/CaraJ/MMSearch 1、背景 随着大型语言模型(LLMs)的出现,人工智能搜索引擎(如SearchGPT)展示了人类与互联网交互的新范式。 然而,当前大多数AI搜索引擎仅限于文本设置,忽视了用户查询的多模态性质和网站信息的文本-图像交错特性。 虽然大型多模态模型(LMMs)最近取得了令人印象深刻的进展,但它们是否能作为AI搜索引擎发挥作用仍未得到充分探索。 为了填补这一研究空白,研究团队提出了MMSEARCH-ENGINE框架和MMSEARCH测试集,并进行了广泛的评估: MMSEARCH-ENGINE旨在赋予任何LMMs多 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览