专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

创造37项最强性能记录,港中大团队提出全模态预训练范式

DeepTech深科技  · 公众号  · 科技媒体  · 2024-10-01 18:32
    

文章预览

近年来,大语言模型受到了人们的广泛关注,例如 GPT-4o、LLaMA、Stable Diffusion 等。近期 OpenAI 还发布了新模型 o1。 大规模预训练成为实现通用智能的、具有前景的途径之一。除了文本之外,多模态大模型(包括图像、音频、视频),是大模型最前沿的技术之一。 然而目前,学术界对于如何从仅包括文本-图像的预训练,到引入视频、音频具有四个模态预训练发展,还没有比较明确的解决方案。 发展大规模的图文音视频预训练,需要解决一系列挑战,例如多模态数据对齐、预训练范式和整体结构设计等。 从领域进展来看,此前, OpenAI 已开发多模态学习框架 CLIP,其通过大规模的图文配对数据进行训练,以学习视觉概念和文本描述之间的关联,并收集逾 4 亿个高质量的文本-图像对。 此外, Google 和 Meta 也分别开发了 SigLip 和 MetaCLIP。 然而,开发大 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览