文章预览
今天是2024年7月9日,星期二,北京,天气晴。 最近GraphRAG比较火,而与其相对应的,multi-modal RAG也受到广泛关注,其中,多模态数据,包括图像、音频以及视频,每个都可以在线下生成相应的embedding放便后续使用。 因此, 如何快速地实现这一embedding的表示,本文来讲讲实践,看看基于CLIP生成图片的embedding表示、基于wav2vec生成面向语音audio的embedding表示。 供大家一起参考并思考。 1、基于CLIP生成图片的embedding表示 CLIP:Learning Transferable Visual Models From Natural Language Supervision(https://github.com/openai/CLIP,https://openai.com/index/clip/,https://arxiv.org/abs/2103.00020)是一种在多种(图像,文本)对上训练的神经网络。它可以在自然语言的指导下,预测给定图像最相关的文本片段,而无需直接针对任务进行优化,类似于GPT-2和3的零样本能力。 因此,可以使用clip-vit-base-p
………………………………