专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯。
今天看啥  ›  专栏  ›  深度学习与NLP

多模态大语言模型最新进展

深度学习与NLP  · 知乎专栏  ·  · 2024-07-31 18:05

文章预览

1 介绍 本文对多模态大型语言模型(MM-LLMs)进行了全面系统的综述,涵盖了模型架构、训练流程以及122个多模态大模型研究的概览。文章深入探讨了输出投影器在机器翻译中的关键作用,并详细分析了模式生成器、训练管道、最先进的MM-LLM(SOTAMM-LLM)和未来发展趋势。MM-LLMs的发展方向包括扩展模型模式、丰富LLM多样性、提高MM生成能力和开发更具挑战性的基准测试。文章还提出了解决MM-LLMs在微调和幻觉缓解等方面所面临挑战的建议。MM-LLMs的时间表如图1所示。 图1 MM-LLMs的时间轴 2 模型体系结构 本节概述了通用模型架构的五个组件及其实现选择,如图2所示。MM理解的MM-LLM仅含前三个组件,训练时模式编码器、LLM主干和模式生成器通常冻结。主要优化集中于输入和输出投影器。投影器为轻量级组件,MM-LLM中可训练参数比例较小(约2%)。总参数量 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览