Twelve Labs: 多模态重塑视频内容检索

海外独角兽 · 公众号 · 科技公司 · 2024-08-22 21:12

主要观点总结

Twelve Labs是一家专注于视频多模态搜索领域的初创公司，提供视频搜索、分类和智能问答等功能，以精准的视频理解和搜索效果获得客户好评。公司成立以来，融资超过7700万美元，并吸引了包括Nvidia、Intel Capital等在内多家知名投资机构的投资。目前，公司的主要客户是拥有中小型视频库的企业，如媒体制作公司、广告相关公司及公共安全公司等。Twelve Labs的核心自研模型包括视频基础模型Marengo-2.6和视频-语言模型Pegasus1，用于执行视频搜索和分类任务，以及视频智能问答。公司面临的主要挑战包括实现大规模视频搜索的技术和商业化瓶颈，以及来自Big Tech的潜在竞争风险。不过，Twelve Labs在视频理解领域的创新和实际应用中的优势使其具有市场竞争力。

关键观点总结

关键观点1: Twelve Labs的核心业务

Twelve Labs提供视频搜索、分类和智能问答等功能，以精准的视频理解和搜索效果获得客户好评。

关键观点2: 融资情况

公司成立以来，融资超过7700万美元，并吸引了包括Nvidia、Intel Capital等在内多家知名投资机构的投资。

关键观点3: 主要客户

公司的主要客户是拥有中小型视频库的企业，如媒体制作公司、广告相关公司及公共安全公司等。

关键观点4: 核心模型

公司核心的自研模型包括视频基础模型Marengo-2.6和视频-语言模型Pegasus1，用于执行视频搜索和分类任务，以及视频智能问答。

关键观点5: 面临的挑战

公司面临的主要挑战包括实现大规模视频搜索的技术和商业化瓶颈，以及来自Big Tech的潜在竞争风险。

文章预览

‍ ‍ 作者：yongxin 编辑：kefei Cisco 曾在 2018 年做过测算，全球已经有超过 75% 的数据是视频内容，互联网视频数据流量超过 50%。视频搜索市场存量很大，目前主要被 YouTube、TikTok 等视频巨头占领。但与文本数据不同，视频中的信息仍然难以通过简单的 Ctrl+F 来查找，其主要困难在于跨模态信息的理解、视频的高计算负担，以及可以应用于多领域的模型架构。 2017 年 Transformer 的出现使得模型可以高效并行处理长序列和捕捉长期依赖关系，2022 年LLM 的出现进一步了增强视觉-语言模型架构，近两年的视频理解模型的发展已经证明了视频领域的模型可以真正完成理解任务。好的视频搜索方式能够带来巨大的用户粘性和商业价值，因此大量的视频资产就像未被采掘的金矿。另外从增量来看，视频智能问答、摘要、分类都是新的应用，最快跑出来的好模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博