文章预览
一水 发自 凹非寺 来源 | 量子位 QbitAI 刚刚,谢赛宁 团队官宣新成果—— 正式推出 以视觉为中心 的多模态大模型 Cambrian-1 ! 模型名为 “寒武纪” ,谢赛宁本人激动表示: 就像在寒武纪大爆发中生物发展出更好的视力一样,我们相信视力的提高不仅意味看得更远,还意味更深入地理解。 一直以来,谢赛宁都在思考一个问题: 人工智能是否需要感官基础来提升理解能力? 从之前的项目(MMVP、V*、VIRL)中,他和团队注意到当前的多模态大模型(MLLM)存在意想不到的 视觉缺陷 。 虽然可以通过增加数据短暂解决问题,但根本问题是, 当前的视觉表示还不足以理解语言 。 基于CLIP和视觉SSL 的模型已被证明是有效的,但它们也有自己的一系列问题。 CLIP/SigLIP模型很棒,但我们需要使我们的方法多样化,并不断探索新的可能性,而不是安定下来并声称
………………………………