专栏名称: Hugging Face
The AI community building the future.
目录
相关文章推荐
今天看啥  ›  专栏  ›  Hugging Face

社区供稿 | 探索 Ovis: 多模态大模型量化的实战指南

Hugging Face  · 公众号  ·  · 2024-11-20 10:30
    

文章预览

大型语言模型(LLM)近年来取得了长足进步,为通用人工智能(AGI)带来了曙光。 这些模型展现出强大的文本理解和生成能力,但要真正接近人类智能的复杂性和多面性,LLM必须突破纯文本的限制,具备理解视觉信息的能力。 为此,研究者们将目光投向了多模态大型语言模型(MLLM),旨在赋予模型感知和理解视觉信息的能力。 当前开源MLLM大多并非从头训练整个模型,而是借助预训练的LLM和视觉Transformer来构建文本和视觉模块。这两个模块采用不同的嵌入策略:文本嵌入是从LLM的嵌入查找表中索引得到的,其中文本词表的每个“单词”通过独热文本token映射到一个嵌入向量。相比之下,视觉嵌入通常由视觉编码器经MLP连接器投影后以非结构化方式直接生成。虽然基于MLP连接器的MLLM在许多任务上取得了不错的成绩,但由于模态间嵌入策略的结构性差 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览