专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

重新思考视觉语言模型中被忽视的方面

极市平台 · 公众号 · · 2024-05-21 22:00

文章预览

↑ 点击蓝字关注极市平台作者丨没有科技@知乎（已授权）来源丨https://zhuanlan.zhihu.com/p/698853593 编辑丨极市平台极市导读文章进一步拓展了 LLaMA 处理多模态的能力，其不仅仅可以接受图文输入，也可以输出图文交错的文案。相较于纯文本大模型，多模态处理的模态更多，能力更加强大，是通往 AGI 最终极的形态，毕竟人类本身接收的输入以及输出也是多模态的。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿 paper link: https://arxiv.org/pdf/2405.11850 前言在这风气云涌的大模型时代，各家都争先恐后推出自己的大模型，生怕在这个时代输在了起跑线上。国外有 OpenAI 的 ChatGPT, GPT-4[1], Meta 的开源 LLaMA[2] 系列，国内有文心一言，以及开源的 Qwen[3], GLM[4], InternLM[5] 等。而进入了 2024 年，各家的大模型都呈现出一种多模态的趋势，而不仅仅局限于 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博