视觉模型智能涌现后， Scaling Law 不会到头

AI科技评论 · 公众号 · 科技创业科技自媒体 · 2024-11-22 09:30

主要观点总结

本文介绍了生数科技发布的视频大模型Vidu 1.5，该模型通过持续Scaling Up，已经来到「奇点」时刻，展现出「上下文能力」，理解记忆所输入的多主体信息，并表现出对复杂主体更精准的控制能力。文章还提到了Vidu 1.5的技术特点，包括统一高效的底层技术架构、数据工程的重要性、视觉上下文时代的智能涌现等。此外，生数科技不会完全对标Sora，而是会坚持自己的通用多模态大模型的定位，解决更多实际问题。

关键观点总结

关键观点1: Vidu 1.5通过持续Scaling Up已经来到「奇点」时刻，展现出强大的「上下文能力」。

Vidu 1.5能够理解记忆多主体信息，并对复杂主体进行精准控制，这是通过其统一高效的底层技术架构和大量高质量数据一同Scaling Up实现的。

关键观点2: 数据工程对Vidu 1.5的表现至关重要。

高质量数据对Vidu 1.5模型中的细节调控非常重要，例如人物特写的细节调控、不同主体之间的无缝融合等。

关键观点3: 生数科技不会像Sora那样追求世界模拟器的目标。

生数科技定位为通用多模态大模型，旨在解决更多实际问题，而不是仅仅追求世界模拟器的目标。

文章预览

Vidu1.5 已拉开技术代差。作者丨王悦编辑丨陈彩娴 Scaling Law 或将终结——这是最近备受热议的话题之一。该讨论最初源自于哈佛大学一篇名为《Scaling Laws for Precision》的论文，其研究表明当下的语言模型在大量数据上经历了过度训练，继续叠加更多的预训练数据可能会产生副作用。这释放的信号是：在自然语言处理领域， Scaling Law 目光所及地到达瓶颈，单纯依靠增加模型规模和数据量来提升性能的方法也许不再有效，低精度的训练和推理正在使模型性能提升的边际效益递减。 Scaling Law 在 NLP 的路上确实展现出了「即将到头」的前兆，但这并不意味着其末日真的来临。在多模态模型领域，由于多模态数据包含图像、视频、音频等多种类型，在信息丰富度、处理方法、应用领域方面均较为复杂，难以达到较大的训练规模体量，因此 Scaling Law 尚没 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博