专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【CVPR2024教程】从多模态大语言模型到人类水平的AI:模态、指令、推理、效率及其他,200多页ppt

专知  · 公众号  ·  · 2024-06-22 00:11

文章预览

欢迎参加CVPR 2024的多模态大语言模型(MLLM)教程系列! 人工智能(AI)涵盖了跨越多种模态的知识获取和现实世界的基础。作为一个多学科研究领域,多模态大语言模型(MLLM)最近在学术界和工业界引起了越来越多的关注,展示了通过MLLM实现人类水平AI的前所未有的趋势。这些大型模型通过整合和建模多种信息模态,包括语言、视觉、听觉和感官数据,提供了一个理解、推理和规划的有效工具。本教程旨在对MLLM领域的前沿研究进行全面回顾,重点关注四个关键领域:MLLM架构设计、指令学习与幻觉、多模态推理以及MLLM中的高效学习。我们将探讨技术进步,综合关键挑战,并讨论未来研究的潜在方向。 参考文献: OpenAI, 2023,  Introducing ChatGPT OpenAI, 2023,  GPT-4 Technical Report Alayrac, et al., 2022,  Flamingo: a Visual Language Model for Few-Shot Learning Li, et al., 2023,  BLIP-2 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览