来源 | AIGC开放社区大语言模型(LLM)在生成文本内容方面非常强,但在理解、生成视频、图像等方面略显不足。尤其是在 Sora 一夜爆红之后,让人们意识到未来主流模型一定是文本 + 音频 + 图像 + 视频的多模态生成、理解功能。因此,加州大学伯克利分校的研究人员开源了一种训练数据更多、理解能力更强的基础模型——大世界模型(Large World Model,简称“LWM”)。LWM 是一种通用的多模态自回归模型,与前不久谷歌发布的 Gemini 1.5 一样,一次性可精准解答 100 万 tokens 的视频、文本,例如,LWM 可以正确回答 1 小时 YouTube 视频中包含 500 多个视频片段的问题。开源地址:https://github.com/LargeWorldModel/LWM论文地址:https://arxiv.org/abs/2402.08268huggingface:https://huggingface.co/LargeWorldModel此外,LWM 可以精准检索 100 万 tokens 文本中的内容,同时与 Sora 一样具备文本生
………………………………