Mono-InternVL：视觉语言模型新范式

自动驾驶之心 · 公众号 · · 2024-11-16 00:00

文章预览

作者 | vasgaowei 编辑 | 自动驾驶之心原文链接：https://zhuanlan.zhihu.com/p/1916948041 点击下方卡片，关注“ 自动驾驶之心 ”公众号戳我-> 领取自动驾驶近15个方向学习路线 >> 点击进入→ 自动驾驶之心『大语言模型』技术交流群本文只做学术分享，如有侵权，联系删文目前流行的多模态大模型的结构是模块化的，和LLaVA、MiniGPT-4、Qwen-VL和DeepSeek-VL等系列一样，都会有视觉Encoder、Projector、Text Embedding Layer和LLM，最近也有一些工作没有视觉Encoder的多模态大语言模型，今天要介绍的论文《Mono-Internvl: Pushing The Boundaries Of Monolithic Multimodal Large Language Models With Endogenous Visual Pre-Training》提出了一种新的多模态大语言模型结构：Mono-Internvl以及对应的训练策略：endogenous visual expert（EViP）。 arxiv.org/pdf/2410.08202 internvl.github.io/blog/2024-10-10-Mono-InternVL/ huggingface.co/O ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

云南新闻网 · 【侨云南】安宁：以体育为纽带，促进各民族交往交流交融

18 小时前

云南网 · 含“吒”量极高！云南省各中小学开学啦

昨天

春城晚报 · 突传噩耗！著名画家突发心梗去世

昨天

云南网 · 下雨+开学！昆明这些地方堵堵堵！出行注意→

昨天

云南网 · 上个厕所，夫妻俩接连中招！多地紧急提醒

3 天前

全球风口 · 群聊如何不让人烦？这是AI最能帮你的一次，春节再忙也要看完

3 周前

海上风电观察 · 风电并网装机破5亿千瓦，提质增效压力陡增！

3 天前