今天看啥  ›  专栏  ›  灵度智能

上海AI实验室发布一种基于主题级自我校正的方法以缓解多模态大模型(MLLMs)的幻觉问题

灵度智能  · 公众号  ·  · 2024-12-06 12:10
    

文章预览

Abstract 将多模态大语言模型(MLLMs)的行为与人类偏好对齐是开发稳健且可信的人工智能系统的关键。尽管最近的尝试采用了人类专家或强大的辅助AI系统提供更准确的偏好反馈,例如从MLLMs生成的响应中确定更优选的响应或直接改写无幻觉的响应,但大量的资源消耗限制了这种反馈收集的可扩展性。 在本文中,我们提出了一种主题级偏好覆盖(TPO)方法,这是一种自我校正方法,能够引导模型在主题级别上缓解自身的幻觉问题。通过一种去混杂策略(deconfounded strategy),将响应中的每个主题替换为模型自身生成的最佳或最差替代项,TPO能够生成更具对比性的成对偏好反馈,从而提高反馈质量,无需人为干预或专有模型的参与。 实验结果表明,所提出的TPO方法在可信度上达到了最先进的性能,将目标幻觉减少了约92%,总体幻觉减少了约38%。代码、 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览