专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
今天看啥  ›  专栏  ›  AI前线

与Sora一样能生成视频、图像,还能一次解读100万数据!

AI前线  · 公众号  · AI  · 2024-02-27 12:05
来源 | AIGC开放社区大语言模型(LLM)在生成文本内容方面非常强,但在理解、生成视频、图像等方面略显不足。尤其是在 Sora 一夜爆红之后,让人们意识到未来主流模型一定是文本 + 音频 + 图像 + 视频的多模态生成、理解功能。因此,加州大学伯克利分校的研究人员开源了一种训练数据更多、理解能力更强的基础模型——大世界模型(Large World Model,简称“LWM”)。LWM 是一种通用的多模态自回归模型,与前不久谷歌发布的 Gemini 1.5 一样,一次性可精准解答 100 万 tokens 的视频、文本,例如,LWM 可以正确回答 1 小时 YouTube 视频中包含 500 多个视频片段的问题。开源地址:https://github.com/LargeWorldModel/LWM论文地址:https://arxiv.org/abs/2402.08268huggingface:https://huggingface.co/LargeWorldModel此外,LWM 可以精准检索 100 万 tokens 文本中的内容,同时与 Sora 一样具备文本生 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照