今天看啥  ›  专栏  ›  AI大模型学习基地

基于离散序列建模的统一多模态大型语言模型-AnyGPT

AI大模型学习基地  · 公众号  ·  · 2024-06-17 23:48

文章预览

AnyGPT是一种能够处理 任意模态输入输出 的多模态语言模型,其通过离散序列建模实现对不同模态(如语音、文本、图像和音乐)的统一处理, 无需改变当前大型语言模型(LLM)的架构或训练范式 ,仅依赖于数据层面的预处理。AnyGPT的关键在于 多模态标记器 ,它将原始多模态数据压缩成离散的语义标记序列,从而使得核心LLM能够在语义层面上统一处理感知、理解、推理和生成任务。随后,多模态解码器将离散表示还原为原始模态的感知表示。 之前讨论过国内外多模态模型的发展的两条主要路径(详细阐述请参考文后链接): 1. 语言为核心的多模态融合 以及 2. 视频生成和渲染为主的多模态生成。 本人认为AnyGPT属于第一种路径。 1 离散化token表征 使用多模态分词器 (tokenizer),将原始的多模态数据,比如图像和语音,压缩成离散语义 token 的序列。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览