今天看啥  ›  专栏  ›  深度学习与NLP

四个角度谈多模态大模型产生幻觉的原因

深度学习与NLP  · 知乎专栏  ·  · 2024-07-23 11:10

文章预览

作者:mingming,百度算法工程师 声明:本文只做分享,版权归原作者,侵权私信删除! 原文: https:// zhuanlan.zhihu.com/p/69 7773571 https:// github.com/showlab/Awes ome-MLLM-Hallucination/blob/main/assets/tax.png 数据角度 数据量 深度学习模型,尤其是大型多模态语言模型(MLLMs),对数据的需求量非常大。数据的数量在构建健壮且可靠的MLLMs时起着重要作用。目前, 图像-文本对数据集和视觉问答(Visual QA)数据被用于训练MLLMs。尽管这些数据集通常比计算机视觉中的典型数据集要大,但它们在数量上仍远少于用于训练大型语言模型(LLMs)的纯文本数据。数据不足可能会导致跨模态对齐出现问题,从而导致幻觉现象(在AMBER和LLava-RLHF)中提到的。 数据质量 • 数据噪音 训练多模态语言模型(MLLMs)涉及两个阶段:预训练阶段利用从网络抓取的图像-文本对,其中包含不准确 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览