今天看啥  ›  专栏  ›  普通人的AI自由

2024视觉模型鏖战:谁在吆喝?谁在赚钱?

普通人的AI自由  · 公众号  · 科技自媒体  · 2025-01-03 09:25
    

主要观点总结

本文主要介绍了AI在视觉多模态领域的发展状况,包括AI生图、AI视频、AI 3D等方面的技术进展以及商业化应用前景。文章还讨论了视觉多模态理解的进展,包括理解模型、商业化应用等方面的内容。同时,对于创业公司在AI视频领域的出路也进行了一些思考。

关键观点总结

关键观点1: AI在视觉多模态领域的发展状况

AI生图已经进入下半场,模型可卷空间有限,重要的是场景的理解、客户的理解;AI视频领域群雄鏖战,融资不易,各家公司主要在应用层进行优化和场景化;AI 3D领域则出现了两种思路,一种是基于视频的延续,另一种则需要理解和构建物理世界。

关键观点2: 视觉多模态理解的进展

多模态理解的进展要慢于视觉生成,目前主要依赖语言模型进行视觉理解,但存在信息缺失的问题。真正的端到端模型是实现视觉理解和生成的关键。

关键观点3: 商业化应用前景

视觉多模态领域的商业化路径清晰,但由于审美和客户需求的多重定义,以及模型的局限性,仍存在许多挑战。创业公司在广告电商、影视、游戏等领域有机会找到细分市场进行突破。

关键观点4: 创业公司的选择

对于创业公司来说,在AI视频领域仍有出路,但需要选择垂直化、行业能力或低门槛等方向进行发展。同时,抓住客户是活下去的王道。


文章预览

太长不看版 •大语言模型是“学会语言”,视觉多模态模型要“学会物理”;但当前的视觉Diffusion模型最多是个“模拟器” • AI生图进入下半场,视频生成卷出天际,3D生成曙光初现 • 多模态生成比LLM离商业变现更近:广告、电商、游戏、影视 • 融资不易,视频公司使出浑身解数:技术流、商业流、整活流 • 视频编辑巨头Adobe、字节-剪映默默等待收割 • 视觉模型不是Winner Takes All:“垂直化”、“低门槛”是创业公司的机会 • 多模态理解能力比多模态生成能力有更大意义:广告推荐 and more Image: Explore - ArtStation [作者]Lian, Sylvie, MK; [视觉] Tracy 正文 < 1> 群雄鏖战的2024 2024年是视觉多模态大爆发的一年。 AI生图:真实感以假乱真,可控性商用成熟,竞争格局基本确定 AI作图最早始于 2022年7-8月 的Midjourney和Stable Diffusion。最开始阶段因为没有可控性 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览