专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

多模态RAG动手实践:图片CLIP、音频Wav2Vec做Embedding嵌入生成

老刘说NLP  · 公众号  ·  · 2024-07-09 11:40
    

文章预览

今天是2024年7月9日,星期二,北京,天气晴。 最近GraphRAG比较火,而与其相对应的,multi-modal RAG也受到广泛关注,其中,多模态数据,包括图像、音频以及视频,每个都可以在线下生成相应的embedding放便后续使用。 因此, 如何快速地实现这一embedding的表示,本文来讲讲实践,看看基于CLIP生成图片的embedding表示、基于wav2vec生成面向语音audio的embedding表示。 供大家一起参考并思考。 1、基于CLIP生成图片的embedding表示 CLIP:Learning Transferable Visual Models From Natural Language Supervision(https://github.com/openai/CLIP,https://openai.com/index/clip/,https://arxiv.org/abs/2103.00020)是一种在多种(图像,文本)对上训练的神经网络。它可以在自然语言的指导下,预测给定图像最相关的文本片段,而无需直接针对任务进行优化,类似于GPT-2和3的零样本能力。 因此,可以使用clip-vit-base-p ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览