今天看啥  ›  专栏  ›  PaperAgent

Jina又开源向量V3,8K长度,卷疯了!

PaperAgent  · 公众号  ·  · 2024-09-19 21:11

主要观点总结

Jina AI发布了最新文本向量模型jina-embeddings-v3,具有5.7亿参数,支持多语言数据和长文本检索任务。该模型使用LoRA适配器进行特定任务嵌入,生成高质量的嵌入,并在多个评估中表现优异。其支持灵活的嵌入维度,在英语和多种语言任务上都有出色的表现。

关键观点总结

关键观点1: 模型的发布和参数规模

Jina AI发布了jina-embeddings-v3文本向量模型,拥有5.7亿参数,支持多语言数据和长文本检索任务。

关键观点2: 模型的性能表现

jina-embeddings-v3在各种评估中表现出卓越的性能,特别是在英语任务上,它超越了OpenAI和Cohere的专有向量模型。同时,它在所有多语言任务上也超过了其他模型。

关键观点3: 模型的特点和创新

jina-embeddings-v3使用LoRA适配器进行特定任务的嵌入编码,支持灵活的嵌入维度。该模型集成了套娃式表征学习(MRL),使用户可以在不牺牲性能的情况下任意截断嵌入维度。此外,它还具有有效的骨干架构,通过几项关键修改实现了长文本序列的有效编码。

关键观点4: 模型的架构和组成

jina-embeddings-v3基于XLM-RoBERTa模型进行改进,使用了LoRA适配器进行特定任务的嵌入编码。模型的输入由文本和任务两部分组成。此外,该模型还引入了五个特定任务的LoRA适配器,这些适配器对计算的开销非常小。


文章预览

Jina AI 宣布推出 jina-embeddings-v3 ,一个拥有5.7亿参数的前沿文本向量模型。它在 多语言数据 和 长文本检索 任务上实现了最先进的性能,支持长达 8192个token 的输入长度。该模型具有针对特定任务的低秩适应( LoRA )适配器,使其能够为各种任务生成高质量的嵌入,包括 查询检索、文档检索、聚类、分类和文本匹配 。 向量模型的规模法则(Scaling Law)。在英语任务上的平均MTEB性能与模型参数数量对比图。 可以看出,jina-embeddings-v3与相似大小的模型相比展现出了更优越的性能,同时也显示出比其前身jina-embeddings-v2有超线性的提升。 在MTEB英语、多语言和LongEmbed的评估中,jina-embeddings-v3在英语任务上超越了 OpenAI和Cohere的最新专有向量模型 ,同时在所有多语言任务上也超过了multilingual-e5-large-instruct。 得益于套娃式表征学习(Matryoshka Representation Learning, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览