文章预览
打造一个有温度、有趣味、专业的全栈式AI 交流社区, 用心写好每一篇文章! “ 无论是在工业界,还是在学术界, 我们听到最多的词语可能是“多模态大模型能够完成很多很厉害的任务”,但是基本不知道“当前的多模态大模型”并不擅长处理哪些问题! 然而,大模型当前做不好的问题,才应该是我们关注与优化的重点内容。 本文另辟蹊径,作者从一个独特的视角来探索了当前最前沿的4个多模态大模型在7种任务上面变现不佳的现象 ,并给出了初步的分析与结论。当前, 除了这7个方向,应该还有很多可以探索的方向。 不过它最起码给我们指明了一条正确的道路,可以指引我们向更好的方向去快速演进! ” 项目主页 - https://vlmsareblind.github.io/ 代码链接 - https://github.com/anguyen8/vision-llms-are-blind 论文链接 - https://arxiv.org/abs/2407.06581 01-主流多模态L
………………………………