专栏名称: AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Apple提出MM1.5：多模态大型语言模型微调的方法、分析和见解

AI算法与图像处理 · 公众号 · · 2024-10-16 17:00

文章预览

摘要我们介绍了 MM1.5 ，一个新的多模态大型语言模型 (MLLM) 家族，旨在增强在富文本图像理解、视觉参照和定位以及多图像推理方面的能力。在 MM1 架构的基础上，MM1.5 采用以数据为中心的模型训练方法，系统地探索了整个模型训练生命周期中各种数据混合的影响。这包括用于持续预训练的高质量 OCR 数据和合成字幕，以及用于监督微调的优化视觉指令调优数据混合。我们的模型参数范围从 10 亿到 300 亿，涵盖密集型和专家混合 (MoE) 变体，并证明即使在较小规模（10 亿和 30 亿）下，仔细的数据整理和训练策略也能产生强大的性能。此外，我们还介绍了两种专门的变体：MM1.5-Video，专为视频理解而设计，以及 MM1.5-UI，专为移动 UI 理解而设计。通过广泛的经验研究和消融实验，我们提供了关于训练过程和决策的详细见解，这些见解为我们最终 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博