专栏名称: 老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

小小的python学习社 · 大伯过年老炫耀儿子是公务员，我就说自己年薪6 ... · 昨天

半岛都市报 · 52天宝宝突然中毒，急送ICU！因奶奶往水里 ... · 昨天

北京二丫头 · 2025年北京市残疾人冰雪嘉年华开幕 ... · 2 天前

掌中淄博 · 就在明天！张店发布最新提醒 · 3 天前

会计雅苑 · 更换会计师！审计费由86万增至280万！经预 ... · 3 天前

今天看啥 › 专栏 › 老刘说NLP

多模态RAG动手实践：图片CLIP、音频Wav2Vec做Embedding嵌入生成

老刘说NLP · 公众号 · · 2024-07-09 11:40

文章预览

今天是2024年7月9日，星期二，北京，天气晴。最近GraphRAG比较火，而与其相对应的，multi-modal RAG也受到广泛关注，其中，多模态数据，包括图像、音频以及视频，每个都可以在线下生成相应的embedding放便后续使用。因此，如何快速地实现这一embedding的表示，本文来讲讲实践，看看基于CLIP生成图片的embedding表示、基于wav2vec生成面向语音audio的embedding表示。供大家一起参考并思考。 1、基于CLIP生成图片的embedding表示 CLIP：Learning Transferable Visual Models From Natural Language Supervision（https://github.com/openai/CLIP，https://openai.com/index/clip/,https://arxiv.org/abs/2103.00020）是一种在多种（图像，文本）对上训练的神经网络。它可以在自然语言的指导下，预测给定图像最相关的文本片段，而无需直接针对任务进行优化，类似于GPT-2和3的零样本能力。因此，可以使用clip-vit-base-p ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

小小的python学习社 · 大伯过年老炫耀儿子是公务员，我就说自己年薪60W，是他的10倍！结果大伯说：你深圳挣60w正常！但要论生活质量，肯定还是我儿子高

昨天

半岛都市报 · 52天宝宝突然中毒，急送ICU！因奶奶往水里加了……医生紧急提醒→

昨天

半岛都市报 · 52天宝宝突然中毒，急送ICU！因奶奶往水里加了……医生紧急提醒→

昨天

北京二丫头 · 2025年北京市残疾人冰雪嘉年华开幕每年上万人次残疾人参与冰雪运动

2 天前

北京二丫头 · 2025年北京市残疾人冰雪嘉年华开幕每年上万人次残疾人参与冰雪运动

2 天前

掌中淄博 · 就在明天！张店发布最新提醒

3 天前

掌中淄博 · 就在明天！张店发布最新提醒

3 天前

会计雅苑 · 更换会计师！审计费由86万增至280万！经预沟通可能出具无法表示意见报告！

3 天前

波元霸 · 自己对自己防一手

1 月前

波元霸 · 自己对自己防一手

1 月前