专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
目录
相关文章推荐
今天看啥  ›  专栏  ›  AI算法与图像处理

多模态大模型预训练策略探究

AI算法与图像处理  · 公众号  ·  · 2024-10-10 21:03

文章预览

作者:阿秋Rachel 原文:https://zhuanlan.zhihu.com/p/722324120 来源:青稞AI 多模态大模型预训练探究主要指的是在视觉指令微调前的训练阶段,让模型学会理解图像及其视觉概念,在多个模态上进行joint modeling的过程。 本文主要内容来自下列文章,探索了视觉语言预训练阶段如何设计更有利于下游任务。 •  VILA: On Pre-training for Visual Language Models [1] •  MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [2] •  NVLM: Open Frontier-Class Multimodal LLMs [3] VILA 结论 • 好的预训练阶段可以让模型具有 多图推理能力、更强的in-context learning能力、更广泛的世界知识 。 • 预训练时冻结LLMs就可以实现不错的zero-shot能力,但是在in-context learning能力上会有所下降。 • 预训练阶段加入图文交替数据对性能有所提升, 交替这种格式很重要 。 • 在指令微调阶段 加入text-only的指 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览