文章预览
夕小瑶科技说 原创 作者 | 谢年年 多模态大模型的发展势头正猛,研究者们热衷于通过微调模型,打造出具有更高输入分辨率、更复杂功能、更强感知能力以及更精细粒度的模型。 但是,当我们深究这些模型时,不禁要问: 这些多模态大模型的内部机制是如何运作的?它们是如何凭借系统token、图像token、用户Token这些复杂的输入,推导出准确的答案呢? 由于大模型固有的黑盒特性,再加上多模态的输入输出和复杂深层次的结构,理解MLLMs的内部机制变得异常困难。 知其然更要知其所以然,为了揭开这一谜团,上海交通大学与阿里巴巴的研究团队最近引入了一种信息流方法,来可视化图像和文本在复杂推理任务中的交互过程。这种方法利用注意力得分和Grad-CAM技术量化图像、用户和系统token对答案token的影响程度,展示了信息流的动态变化,并发现
………………………………