文章预览
©PaperWeekly 原创 · 作者 | 姜东志 单位 | 香港中文大学MMLab 研究方向 | 多模态大语言模型 文章链接: https://arxiv.org/pdf/2409.12959 代码链接: https://github.com/CaraJ7/MMSearch 项目主页: https://mmsearch.github.io/ 数据集链接: https://huggingface.co/datasets/CaraJ/MMSearch 背景 随着大型语言模型 (LLMs) 的出现,人工智能搜索引擎(如 SearchGPT)展示了人类与互联网交互的新范式。 然而,当前大多数 AI 搜索引擎仅限于文本设置,忽视了用户查询的多模态性质和网站信息的文本-图像交错特性。 虽然大型多模态模型 (LMMs) 最近取得了令人印象深刻的进展,但它们是否能作为 AI 搜索引擎发挥作用仍未得到充分探索。 为了填补这一研究空白,研究团队提出了 MMSEARCH-ENGINE 框架和 MMSEARCH 测试集,并进行了广泛的评估: 1. MMSEARCH-ENGINE 旨在赋予任何 LMMs 多模态搜索能力。 它不仅支持包
………………………………