专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

新智元 · 公众号 · AI · 2024-12-30 12:31

文章预览

新智元报道编辑：LRST 【新智元导读】视觉价值模型（VisVM）通过「推理时搜索」来提升多模态视觉语言模型的图像描述质量，减少幻觉现象。实验表明，VisVM能显著提高模型的视觉理解能力，并可通过自我训练进一步提升性能。在现代多模态视觉语言模型（VLM）的发展中，提高图像描述的准确性和细节丰富性始终是一个挑战。尽管基于大规模数据的训练极大推动了模型性能，但在实际应用中，模型仍面临识别细微图像区域和减少「幻觉」现象的问题。推理时搜索（inference time search）作为一种提升响应质量的有效方法，已在大型语言模型中展现出巨大潜力。 O1和QwQ等大语言模型通过在推理阶段在语言空间中进行搜索得到更好的回答，在数学和代码等任务中展现了远超越其他模型的卓越性能。那么，我们能否同样通过推理时搜索来提升多模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

AIbase基地 · AI日报：阶跃星辰跃问App推「AI 创意板」；百度“飞帖贺新春”微信小程序上线；商汤Vimi相机改名显演包APP

昨天

AIbase基地 · AI日报：阶跃星辰跃问App推「AI 创意板」；百度“飞帖贺新春”微信小程序上线；商汤Vimi相机改名显演包APP

昨天

宝玉xp · 回复@o0宝贝兔0o:browser use：网页链接 //@o-20250125120352

昨天

爱可可-爱生活 · 【[46星]Humanity's Last Exam：旨在评估人-20250124141509

2 天前

宝玉xp · 继续测试 OpenAI Operator，华而不实呀！让它用 v-20250124133939

2 天前

爱可可-爱生活 · [LG]《Test-time regression: a uni-20250123060611

3 天前

中国计算机学会 · 首轮评审结果公示&第三轮启动申报丨2024年CCF-华为胡杨林基金可信计算领域专项

5 月前

事考必过 · 公基轻松学 |《文学常识中的南宋文学家文天祥》考点清单+重要试题+音频讲解(10.11)

3 月前

机车宝贝Claudisiran · Biotech明牌赌博：临床扑街也可逆风翻盘

3 月前

懂壹点人情世故 · 原来你说爱骑马是爱骑我的吗

1 月前