NExT-GPT：万物皆可的多模态大语言模型

全球技术地图 · 公众号 · · 2025-01-13 17:39

文章预览

随着生成式人工智能在技术进步中展现出强大的类人语言推理和决策能力，为实现通用人工智能铺垫了道路。世界是多模态的，人类通过多种感官获取互补信息，现在基于文本的大语言模型也获得了对图像、视频和音频等非文本模态的理解和感知能力。新加坡国立大学下一代搜索技术联合研究中心（NExT++ Research Center）通过将预训练编码器与其他模态对齐，探索多模态大语言模型（MM-LLMs）的发展。一、总体架构 NExT-GPT框架由三个主要阶段组成：多模态编码阶段、LLM理解和推理阶段以及解码阶段。多模态编码阶段。研究者们采用ImageBind这一现有的模型对不同模态的输入进行编码。这是一个能够处理六种不同的模态的高性能统一编码器。随后，通过一个投影层，不同的编码输入被映射成LLM能够理解的类似语言的表示。 LLM理解和推理阶段。 LLM被用作NEx ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博