专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

新智元  · 公众号  · AI  · 2024-12-30 12:31
    

文章预览

   新智元报道   编辑:LRST 【新智元导读】 视觉价值模型(VisVM)通过「推理时搜索」来提升多模态视觉语言模型的图像描述质量,减少幻觉现象。实验表明,VisVM能显著提高模型的视觉理解能力,并可通过自我训练进一步提升性能。 在现代多模态视觉语言模型(VLM)的发展中,提高图像描述的准确性和细节丰富性始终是一个挑战。尽管基于大规模数据的训练极大推动了模型性能,但在实际应用中,模型仍面临识别细微图像区域和减少「幻觉」现象的问题。 推理时搜索(inference time search)作为一种提升响应质量的有效方法,已在大型语言模型中展现出巨大潜力。 O1和QwQ等大语言模型通过在推理阶段在语言空间中进行搜索得到更好的回答,在数学和代码等任务中展现了远超越其他模型的卓越性能。 那么,我们能否同样通过推理时搜索来提升多模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览