文章预览
夕小瑶科技说 原创 作者 | 21# 6月15日,智源大会「多模态大模型」论坛中,纽约大学助理教授谢赛宁从哲学的角度出发,分享了 AI是否需要更强的视觉基础来实现理解和意义 。 昨天,杨立坤、谢赛宁团队推出其最新研究工作,聚焦多模态模型视觉,发布以视觉为中心的多模态大语言模型(MLLM)-- Cambrian-1 。 Cambrian-1不仅实现了SOTA,还提供了一个全面的、开放的指令调优MLLMs的指南,并且 完全开源 。 谢赛宁本科毕业于上海交通大学,曾在Facebook人工智能研究院担任研究科学家谢赛宁从Meta离职,加入纽约大学担任助理教授。 论文题目: Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs 论文链接: https://arxiv.org/pdf/2406.16860 接下来,让我们来看看研究的具体细节。 总的来说,Cambrian-1在传统协议与使用MLLMs评估视觉表示之间建立了联系,使用MLLM指
………………………………