专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
目录
相关文章推荐
请辩  ·  赚钱的逻辑,你想错了 ·  22 小时前  
金融街老裘  ·  不断改善 ·  2 天前  
今天看啥  ›  专栏  ›  oldpan博客

多模态模型(VLM)部署方法抛砖引玉

oldpan博客  · 公众号  ·  · 2024-07-10 09:02
    

文章预览

  去年年初LLM刚起步的时候,大模型的部署方案还不是很成熟,如今仅仅过了一年多,LLM部署方案已经遍地都是了。 而多模态模型相比大语言模型来说,发展的还没有很“特别”成熟,不过由于两者结构很相似,LLMs的经验还是可以很好地利用到VLMs中。 本篇文章中提到的多模态指的是视觉多模态,即VLM(Vision Language Models)。 以下用一张图展示下简单多模态模型的运行流程: Text Embeddings即文本输入,就是常见LLM中的输入; 而Multomode projector则是多模态模型额外一个模态的输入,这里指的是视觉输入信息,当然是转换维度之后的; 将这个 转换维度之后 的视觉特征和Text Embeddings执行concat操作合并起来,输入decoder中(例如llama)就完成推理流程了; Multomode projector负责将原始的图像特征转换下维度,输出转换后的图像特征;所以有个中文叫投射层,这 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览