google gemini1.5 flash视频图文理解能力初探（一）

悟乙己 · 知乎专栏 · · 2024-06-23 12:11

文章预览

市面能够对视频直接进行分析的大模型着实不多，而且很多支持多模态的大模型那效果着实也不好。从这篇公众号得知，Gemini 1.5可以一次性处理1小时的视频、11小时的音频或100,000行代码，并衍生出更多的数据分析玩法。能力覆盖： - 跨模式理解和推理，当给出一部 44 分钟的巴斯特-基顿（Buster Keaton）无声电影时，该模型能准确分析各种情节点和事件，甚至能推理出电影中容易被忽略的小细节。 - 超复杂文本分析，Gemini 1.5能对给定提示中的大量内容进行无缝分析、分类和总结。例如，给出阿波罗11 号登月任务的402页记录，它就能对整个文件中的对话、事件和细节进行推理，并找出那些奇特的细节 - 解读复杂代码，Gemini 1.5可以一次性解读大约100,000行代码，对其进行修改、注释、优化等。例如，用文字询问个人测试后的几点评价： - 图片 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

为你读诗 · 所有花朵都是春天的礼物，离开枝头也是

昨天

新北方 · “闪了一下人没了”，官方紧急提醒！

昨天

新北方 · 太惊险！男子竟在28层楼的窗外……

2 天前

ACG法实务 · 仅限20位！卡牌·盲盒·游戏抽卡专场线下沙龙 | 二次元合规，中日运营落地合规大讨论！

8 月前

华夏时报 · 突发！他宣布退出美国大选，转而支持特朗普

8 月前

刺猬公社 · 芒果是如何盘活一档音综的？对话《时光音乐会》总制片人任洋

5 月前