一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
今天看啥  ›  专栏  ›  深度学习自然语言处理

长文本 Embedding 模型中的“迟分”策略

深度学习自然语言处理  · 公众号  ·  · 2024-08-26 23:04

文章预览

来自:Jina AI 大约一年前,2023 年 10 月,我们推出了全球首个支持 8K 上下文长度的开源 Embedding 模型 —— jina-embeddings-v2-base-en。自此,长文本在 Embedding 模型中的应用引发了广泛讨论和争议。 信息压缩问题 :将数千字的长文本编码为单一 Embedding 表示会导致语义信息的"过度压缩",使得检索系统难以准确定位特定信息。 检索粒度不足 :许多应用,尤其是检索增强生成(RAG)系统,需要检索文档中的较小片段,而非整个长文档。 短文本检索优势 :基于密集向量的检索系统在处理短文本时通常表现更好,因为短文本的语义信息更容易被准确编码和检索。 一个典型的 RAG Pineline 包括:分块-Embedding-检索-生成。 那么,如果行业只需要具有 512 上下文长度的 Embedding 模型,那么训练 8192 上下文长度的模型又有什么意义呢? 在本文中,我们通过探讨 RAG 中传 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览