今天看啥  ›  专栏  ›  AI科技评论

视觉模型智能涌现后, Scaling Law 不会到头

AI科技评论  · 公众号  · 科技创业 科技自媒体  · 2024-11-22 09:30

主要观点总结

本文介绍了生数科技发布的视频大模型Vidu 1.5,该模型通过持续Scaling Up,已经来到「奇点」时刻,展现出「上下文能力」,理解记忆所输入的多主体信息,并表现出对复杂主体更精准的控制能力。文章还提到了Vidu 1.5的技术特点,包括统一高效的底层技术架构、数据工程的重要性、视觉上下文时代的智能涌现等。此外,生数科技不会完全对标Sora,而是会坚持自己的通用多模态大模型的定位,解决更多实际问题。

关键观点总结

关键观点1: Vidu 1.5通过持续Scaling Up已经来到「奇点」时刻,展现出强大的「上下文能力」。

Vidu 1.5能够理解记忆多主体信息,并对复杂主体进行精准控制,这是通过其统一高效的底层技术架构和大量高质量数据一同Scaling Up实现的。

关键观点2: 数据工程对Vidu 1.5的表现至关重要。

高质量数据对Vidu 1.5模型中的细节调控非常重要,例如人物特写的细节调控、不同主体之间的无缝融合等。

关键观点3: 生数科技不会像Sora那样追求世界模拟器的目标。

生数科技定位为通用多模态大模型,旨在解决更多实际问题,而不是仅仅追求世界模拟器的目标。


文章预览

Vidu1.5 已拉开技术代差。 作者丨王   悦 编辑丨陈彩娴 Scaling Law 或将终结——这是最近备受热议的话题之一。该讨论最初源自于哈佛大学一篇名为《Scaling Laws for Precision》的论文,其研究表明当下的语言模型在大量数据上经历了过度训练,继续叠加更多的预训练数据可能会产生副作用。 这释放的信号是:在自然语言处理领域, Scaling Law 目光所及地到达瓶颈,单纯依靠增加模型规模和数据量来提升性能的方法也许不再有效,低精度的训练和推理正在使模型性能提升的边际效益递减。 Scaling Law 在 NLP 的路上确实展现出了「即将到头」的前兆,但这并不意味着其末日真的来临。在多模态模型领域,由于多模态数据包含图像、视频、音频等多种类型,在信息丰富度、处理方法、应用领域方面均较为复杂,难以达到较大的训练规模体量,因此 Scaling Law 尚没 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览