专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
今天看啥  ›  专栏  ›  自动驾驶之心

Mono-InternVL:视觉语言模型新范式

自动驾驶之心  · 公众号  ·  · 2024-11-16 00:00
    

文章预览

作者 | vasgaowei 编辑 | 自动驾驶之心 原文链接:https://zhuanlan.zhihu.com/p/1916948041 点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >> 点击进入→ 自动驾驶之心 『 大语言模型 』 技术交流群 本文只做学术分享,如有侵权,联系删文 目前流行的多模态大模型的结构是模块化的,和LLaVA、MiniGPT-4、Qwen-VL和DeepSeek-VL等系列一样,都会有视觉Encoder、Projector、Text Embedding Layer和LLM,最近也有一些工作没有视觉Encoder的多模态大语言模型,今天要介绍的论文《Mono-Internvl: Pushing The Boundaries Of Monolithic Multimodal Large Language Models With Endogenous Visual Pre-Training》提出了一种新的多模态大语言模型结构:Mono-Internvl以及对应的训练策略:endogenous visual expert(EViP)。 arxiv.org/pdf/2410.08202 internvl.github.io/blog/2024-10-10-Mono-InternVL/ huggingface.co/O ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览