今天看啥  ›  专栏  ›  LLM SPACE

寒武纪视觉爆炸:多模态大模型在视觉处理中的新探索

LLM SPACE  · 公众号  ·  · 2024-09-03 11:48

文章预览

Guest Information 分享嘉宾 Peter Tong 童晟邦 纽约大学博士 师从 Yann LeCun 教授和 Saining Xie 教授 伯克利人工智能实验室(BAIR)的研究员 近期获得 OpenAI 超对齐奖学金 Sharing 分享 主题:视觉在多模态大模型中扮演角色 我们的研究为以视觉为中心的MLLMs。虽然大模型如GPT和Claude在智力任务上表现出色,但它们在视觉密集型任务中的表现仍有待提高。我们关注这些模型在游戏、日常生活和自动驾驶等视觉要求较高的场景中的应用。去年,我们开始探索开源社区的多模态模型何时能与ChatGPT相媲美。现在,一年过去了,许多公司在这方面取得了显著进展,这正是我们研究的方向。 在讲解技术前,先介绍我们的工作“Cambrian-1”。“Cambrian”指寒武纪生物 大爆炸 的时期。 你可能好奇,动物何时开始长出眼睛?GPT告诉我,约5.41亿年前的寒武纪时期,动物才开始长出 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览