今天看啥  ›  专栏  ›  悟乙己

google gemini1.5 flash视频图文理解能力初探(一)

悟乙己  · 知乎专栏  ·  · 2024-06-23 12:11
    

文章预览

市面能够对视频直接进行分析的大模型着实不多,而且很多支持多模态的大模型那效果着实也不好。 从这篇公众号 得知,Gemini 1.5可以一次性处理1小时的视频、11小时的音频或100,000行代码,并衍生出更多的数据分析玩法。能力覆盖: - 跨模式理解和推理 ,当给出一部 44 分钟的巴斯特-基顿(Buster Keaton)无声电影时,该模型能准确分析各种情节点和事件,甚至能推理出电影中容易被忽略的小细节。 - 超复杂文本分析 ,Gemini 1.5能对给定提示中的大量内容进行无缝分析、分类和总结。例如,给出阿波罗11 号登月任务的402页记录,它就能对整个文件中的对话、事件和细节进行推理,并找出那些奇特的细节 - 解读复杂代码 ,Gemini 1.5可以一次性解读大约100,000行代码,对其进行修改、注释、优化等。例如,用文字询问 个人测试后的几点评价: - 图片 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览