多模态模型(VLM)部署方法抛砖引玉

oldpan博客 · 公众号 · · 2024-07-10 09:02

文章预览

去年年初LLM刚起步的时候，大模型的部署方案还不是很成熟，如今仅仅过了一年多，LLM部署方案已经遍地都是了。而多模态模型相比大语言模型来说，发展的还没有很“特别”成熟，不过由于两者结构很相似，LLMs的经验还是可以很好地利用到VLMs中。本篇文章中提到的多模态指的是视觉多模态，即VLM（Vision Language Models）。以下用一张图展示下简单多模态模型的运行流程： Text Embeddings即文本输入，就是常见LLM中的输入；而Multomode projector则是多模态模型额外一个模态的输入，这里指的是视觉输入信息，当然是转换维度之后的；将这个转换维度之后的视觉特征和Text Embeddings执行concat操作合并起来，输入decoder中（例如llama）就完成推理流程了； Multomode projector负责将原始的图像特征转换下维度，输出转换后的图像特征；所以有个中文叫投射层，这 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

请辩 · 赚钱的逻辑，你想错了

22 小时前

金融街老裘 · 不断改善

2 天前

请辩 · 住自己的房子，就幸福了吗？

4 天前

BFC汇谈 · 猪突猛进的离岸CNH掉期点

5 天前

BFC汇谈 · 猪突猛进的离岸CNH掉期点

5 天前

硬十 · 为什么需要抗混叠滤波？

6 月前

价值人生 · 中证红利全收益指数的十年：持平标普500ETF，战胜美国红利ETF

5 月前

瑞恩资本RyanbenCapital · 本周 4家递表、2家通过上市聆讯，2家获备案通知书 | 香港IPO周报 (截至20240726)

4 月前