2024视觉模型鏖战：谁在吆喝？谁在赚钱？

普通人的AI自由 · 公众号 · 科技自媒体 · 2025-01-03 09:25

主要观点总结

本文主要介绍了AI在视觉多模态领域的发展状况，包括AI生图、AI视频、AI 3D等方面的技术进展以及商业化应用前景。文章还讨论了视觉多模态理解的进展，包括理解模型、商业化应用等方面的内容。同时，对于创业公司在AI视频领域的出路也进行了一些思考。

关键观点总结

关键观点1: AI在视觉多模态领域的发展状况

AI生图已经进入下半场，模型可卷空间有限，重要的是场景的理解、客户的理解；AI视频领域群雄鏖战，融资不易，各家公司主要在应用层进行优化和场景化；AI 3D领域则出现了两种思路，一种是基于视频的延续，另一种则需要理解和构建物理世界。

关键观点2: 视觉多模态理解的进展

多模态理解的进展要慢于视觉生成，目前主要依赖语言模型进行视觉理解，但存在信息缺失的问题。真正的端到端模型是实现视觉理解和生成的关键。

关键观点3: 商业化应用前景

视觉多模态领域的商业化路径清晰，但由于审美和客户需求的多重定义，以及模型的局限性，仍存在许多挑战。创业公司在广告电商、影视、游戏等领域有机会找到细分市场进行突破。

关键观点4: 创业公司的选择

对于创业公司来说，在AI视频领域仍有出路，但需要选择垂直化、行业能力或低门槛等方向进行发展。同时，抓住客户是活下去的王道。

文章预览

太长不看版 •大语言模型是“学会语言”，视觉多模态模型要“学会物理”；但当前的视觉Diffusion模型最多是个“模拟器” • AI生图进入下半场，视频生成卷出天际，3D生成曙光初现 • 多模态生成比LLM离商业变现更近：广告、电商、游戏、影视 • 融资不易，视频公司使出浑身解数：技术流、商业流、整活流 • 视频编辑巨头Adobe、字节-剪映默默等待收割 • 视觉模型不是Winner Takes All：“垂直化”、“低门槛”是创业公司的机会 • 多模态理解能力比多模态生成能力有更大意义：广告推荐 and more Image: Explore - ArtStation [作者]Lian, Sylvie, MK; [视觉] Tracy 正文 < 1> 群雄鏖战的2024 2024年是视觉多模态大爆发的一年。 AI生图：真实感以假乱真，可控性商用成熟，竞争格局基本确定 AI作图最早始于 2022年7-8月的Midjourney和Stable Diffusion。最开始阶段因为没有可控性 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

泰山财经 · 海尔生物和上海莱士终止筹划合并，同时公布回购股份计划

8 小时前

柳州晚报 · 事关电动自行车充电、停放！4月1日起实施，广西发布新标准

昨天

柳州晚报 · 事关电动自行车充电、停放！4月1日起实施，广西发布新标准

昨天

中国日报 · 最强歌迷！16个新种蜘蛛都以周杰伦的歌命名……

2 天前

中国日报 · 最强歌迷！16个新种蜘蛛都以周杰伦的歌命名……

2 天前

株洲晚报 · 能省钱！“比价神器”上线！株洲人快来试试！

3 天前

株洲晚报 · 能省钱！“比价神器”上线！株洲人快来试试！

3 天前

泰山财经 · 山东滨州一企业奖励员工两百辆奇瑞，去年销售收入突破1200亿

4 天前

图灵编辑部 · 这本书让我摆脱了被数学支配的恐惧！

7 月前

武志红 · 我们究竟为什么要生孩子？

5 月前

中国银行保险报 · 飒！“95后”银行员工“跑进”巴黎奥运会！

5 月前