专栏名称: AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

多模态大模型预训练策略探究

AI算法与图像处理 · 公众号 · · 2024-10-10 21:03

文章预览

作者：阿秋Rachel 原文：https://zhuanlan.zhihu.com/p/722324120 来源：青稞AI 多模态大模型预训练探究主要指的是在视觉指令微调前的训练阶段，让模型学会理解图像及其视觉概念，在多个模态上进行joint modeling的过程。本文主要内容来自下列文章，探索了视觉语言预训练阶段如何设计更有利于下游任务。 • VILA: On Pre-training for Visual Language Models [1] • MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [2] • NVLM: Open Frontier-Class Multimodal LLMs [3] VILA 结论 • 好的预训练阶段可以让模型具有多图推理能力、更强的in-context learning能力、更广泛的世界知识。 • 预训练时冻结LLMs就可以实现不错的zero-shot能力，但是在in-context learning能力上会有所下降。 • 预训练阶段加入图文交替数据对性能有所提升，交替这种格式很重要。 • 在指令微调阶段加入text-only的指 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博