专栏名称: 脑机接口社区
国内领先的脑机接口自媒体和服务平台,旨在促进脑机接口研究和应用之间的合作及成果转化,为脑机接口领域的工作者提供一个专业的资讯发布、学术交流、成果展示及脑机科普平台。
今天看啥  ›  专栏  ›  脑机接口社区

密歇根大学团队打造多模态大模型,能用于可穿戴设备和具身AI智能体

脑机接口社区  · 公众号  ·  · 2024-06-05 09:00
    

文章预览

近期,大语言模型(Large Language Models,LLMs)已经在理解和生成自然语言上取得了空前的成功。 但是,人类依靠自己的大脑不仅仅可以读写文字,还可以看图、看视频、听音乐等。 所以,为了让 AI 更接近真实世界,将额外的模态比如图像输入,融入大语言模型从而打造多模态大模型(MLLMs,Multi-modal LLMs),被认为是 AI 发展的一个关键新领域。 相比纯文本数据,多模态数据更加难以获取,而从零开始直接训练多模态模型也比较困难。 因此,目前的主流方法是基于预训练好的大语言模型,为其配备一个视觉感知模块,来获取多模态感知能力。典型的该类模型有 Flamingo、BLIP、LLaVA、MiniGPT4 等。 这些模型可以处理图片输入,根据用户的问题生成相应的文本回复。 然而,研究发现尽管这些模型表现出不错的多模态理解能力,但是存在严重的视觉幻觉问题 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览