一次可输入多张图像，还能多轮对话！最新开源数据集，让AI聊天更接近现实

机器学习算法与自然语言处理 · 公众号 · · 2024-07-01 00:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 量子位作者 | 刘子煜大模型对话能更接近现实了！不仅可以最多输入20张图像，还能支持多达27轮对话。可处理文本+图像tokens最多18k。这就是最新开源的超长多图多轮对话理解数据集MMDU（Multi-Turn Multi-Image Dialog Understanding）。大型视觉语言模型（LVLMs）的核心能力之一是生成自然且有意义的回答，从而能够与人类进行流畅的图文对话。尽管目前开源的LVLMs在如单轮单图输入等简化场景中展示出了不错的潜力，但在具有长上下文长度，且需要多轮对话和多图输入的真实对话场景中，表现则相对不足 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博