社区供稿 | 探索 Ovis: 多模态大模型量化的实战指南

Hugging Face · 公众号 · · 2024-11-20 10:30

文章预览

大型语言模型（LLM）近年来取得了长足进步，为通用人工智能（AGI）带来了曙光。这些模型展现出强大的文本理解和生成能力，但要真正接近人类智能的复杂性和多面性，LLM必须突破纯文本的限制，具备理解视觉信息的能力。为此，研究者们将目光投向了多模态大型语言模型（MLLM），旨在赋予模型感知和理解视觉信息的能力。当前开源MLLM大多并非从头训练整个模型，而是借助预训练的LLM和视觉Transformer来构建文本和视觉模块。这两个模块采用不同的嵌入策略：文本嵌入是从LLM的嵌入查找表中索引得到的，其中文本词表的每个“单词”通过独热文本token映射到一个嵌入向量。相比之下，视觉嵌入通常由视觉编码器经MLP连接器投影后以非结构化方式直接生成。虽然基于MLP连接器的MLLM在许多任务上取得了不错的成绩，但由于模态间嵌入策略的结构性差 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

同城迪拜 · 迪拜：RTA发布汽车安全指南——天热了要小心！

8 月前

顺络Sunlord · 2024上海慕尼黑电子展开展啦！E6馆6122展位，顺络等您来！

7 月前

微基因 · 中国人的痛风率，为啥这么高？

5 月前

出版商务周报 · 12年畅销超千万册，如何基于一套书打造一个出版品牌？

5 月前

章哥说买房 · 买房卖房实操技巧课全新升级，东/西/海/朝各区专场及北京学区总场持续推出（10.26-11.10）

3 月前