专栏名称: AIGC开放社区
专注AIGC(生成式人工智能)领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展应用和落地,以及国内LLM的发展和市场研究,社区秉承共建、共享、开放的理念,提供对社区会员有价值的商业化思路和服务。
今天看啥  ›  专栏  ›  AIGC开放社区

谷歌推出通用视频模型:能精准分类、定位、检索等

AIGC开放社区  · 公众号  ·  · 2024-07-14 07:25

文章预览

专注AIGC领域的专业社区,关注微软 、百度文心一言、讯飞星火等大语言模型(LLM)的发展和 应用 落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注! 谷歌的研究人员推出了通用视频模型VideoPrism,可以用于视频领域的多种任务,例如,内容分类、定位、检索、字幕和回答等。 VideoPrism能拥有如此强的泛化能力,主要是使用了3600万段高质量的视频-字幕,以及5.82亿段带有噪声平行文本(如ASR文字转录、生成字幕等)的庞大预训练视频数据。 为了测试VideoPrism的通用性能,研究人员在33个视频理解基准测试集上,涵盖4大类任务通用视频理解、视频-文本检索、视频字幕生成和问答进行了综合测试。 结果显示, VideoPrism在30个基准测试上取得了最佳成绩 ,在通用视频分类和定位任务上,VideoPrism-g比目前最先进的视频模型VidepMAE-v2-g平均提升了22%的精准度。 论文 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览