文章预览
↑ 点击 蓝字 关注极市平台 作者 丨没有科技@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/698853593 编辑丨极市平台 极市导读 文章进一步拓展了 LLaMA 处理多模态的能力,其不仅仅可以接受图文输入,也可以输出图文交错的文案。相较于纯文本大模型,多模态处理的模态更多,能力更加强大,是通往 AGI 最终极的形态,毕竟人类本身接收的输入以及输出也是多模态的。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 paper link: https://arxiv.org/pdf/2405.11850 前言 在这风气云涌的大模型时代,各家都争先恐后推出自己的大模型,生怕在这个时代输在了起跑线上。国外有 OpenAI 的 ChatGPT, GPT-4[1], Meta 的开源 LLaMA[2] 系列,国内有文心一言,以及开源的 Qwen[3], GLM[4], InternLM[5] 等。而进入了 2024 年,各家的大模型都呈现出一种多模态的趋势,而不仅仅局限于
………………………………