今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

多模态模型(VLM)部署方法抛砖引玉

吃果冻不吐果冻皮  · 公众号  ·  · 2024-07-10 11:50

文章预览

【点击】 加入大模型技术交流群 去年年初LLM刚起步的时候,大模型的部署方案还不是很成熟,如今仅仅过了一年多,LLM部署方案已经遍地都是了。 而多模态模型相比大语言模型来说,发展的还没有很“特别”成熟,不过由于两者结构很相似,LLMs的经验还是可以很好地利用到VLMs中。 本篇文章中提到的多模态指的是视觉多模态,即VLM(Vision Language Models)。 以下用一张图展示下简单多模态模型的运行流程: Text Embeddings即文本输入,就是常见LLM中的输入; 而Multomode projector则是多模态模型额外一个模态的输入,这里指的是视觉输入信息,当然是转换维度之后的; 将这个 转换维度之后 的视觉特征和Text Embeddings执行concat操作合并起来,输入decoder中(例如llama)就完成推理流程了; Multomode projector负责将原始的图像特征转换下维度,输出转换后的图像特征 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览