一次可输入多张图像，还能多轮对话！最新开源数据集，让AI聊天更接近现实

量子位 · 公众号 · AI · 2024-06-29 14:32

文章预览

刘子煜投稿量子位 | 公众号 QbitAI 大模型对话能更接近现实了！不仅可以最多输入20张图像，还能支持多达27轮对话。可处理文本+图像tokens最多18k。这就是最新开源的超长多图多轮对话理解数据集MMDU（Multi-Turn Multi-Image Dialog Understanding）。大型视觉语言模型（LVLMs）的核心能力之一是生成自然且有意义的回答，从而能够与人类进行流畅的图文对话。尽管目前开源的LVLMs在如单轮单图输入等简化场景中展示出了不错的潜力，但在具有长上下文长度，且需要多轮对话和多图输入的真实对话场景中，表现则相对不足。此外，现有的LVLM Benchmarks主要采用单项选择题或简短回答的形式，难以全面评估LVLMs在真实世界人机互动应用中的表现。为此，研究团队在论文 A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs 中提出了全新多图多轮 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 《爱可可微博热门分享(12.11)》爱可可微博热门分享(12-20241211223447

20 小时前

爱可可-爱生活 · 今日推介(第1614期)：顺序组合最优传输的Sinkhorn算法-20241209060902

3 天前

爱可可-爱生活 · 【机器人安全导航控制：为单个或多机器人导航提供安全关键控制器，包-20241207163205

5 天前

宝玉xp · 回复@庭院里喝茶:cloud-3.5-sonnet 好一些//@-20241207165152

5 天前

宝玉xp · 回复@谢谢橘子:类似于谐音梗，但是是拼写类似，驯鹿强化学习（Re-20241206111052

6 天前

农参 · 抓紧申报！2025年农业建设项目储备工作将启动！

3 月前

CC爸妈 · 8个瑞士卷，又把中国女性集体拖进了这个无解骗局

1 月前