一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

AnyGPT | 基于离散表示统一多模态理解与生成:把一种新模态当作一门外语 -- NICE27期

深度学习自然语言处理  · 公众号  ·  · 2024-09-11 22:49

文章预览

主题 基于离散表示统一多模态理解与生成:把一种新模态当作一门外语 时间 2024.9.14 20:00-21:00 周六 入群 论文 :AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling 地址 :https://arxiv.org/pdf/2402.12226 大纲 首个统一多模态理解与生成的模型SpeechGPT:使大语言模型具有内生的语音对话能力 如何获得更适合语言模型建模的语音表示?SpeechTokenizer:语音语义信息和副语言学信息的解耦 基于离散表示的Any-to-Any多模态模型AnyGPT:基于离散表示统一文本、图像、语音、音乐四种模态 类GPT-4o模型 SpeechGPT2:如何基于语言模型,对多模态信息进行完整的建模 引言 大语言模型(LLM)通过Decoder Only Transformer的架构和Next Token Prediction任务,在海量文本数据上进行训练,不仅学会了各种NLP任务,并涌现出In Context Learning、Chain-of-Thought等新能力。然而,有人预测互联网上的高质量 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览