一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

Jina Embeddings V3:站在多语言向量模型最前沿

深度学习自然语言处理  · 公众号  ·  · 2024-09-24 22:26

文章预览

还在为多语言的文本向量发愁?担心模型太大跑不动? Jina Embeddings V3 来了,这款 5.7 亿参数的顶级文本向量模型, 在多语言和长文本检索任务上达到当前最佳水平 SOTA 。内置多种 LoRA 适配器,可以根据你的需求,针对 检索、聚类、分类和匹配 的不同场景进行定制,获得更精准的向量化效果。 多语言支持 : 支持 89 种语言,全面超越 multilingual-e5-large-instruct 长文本处理 : 支持 8192 token 的输入长度,在 LongEmbed 基准测试中表现出色 任务定制更精准 : 内置多种 LoRA 适配器,针对检索、聚类、分类和匹配等任务,生成定制化向量,效果更精准。 输出维度可定制 : 默认输出维度为 1024,但你完全可以根据需要把它缩减到 32,性能几乎不受影响,这都归功于俄罗斯套娃表示学习技术的加持。 模型已开源,即刻体验: 开源模型链接: https://huggingface.co/jinaai/jina-e ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览