文章预览
©作者 | json和Jason 论文链接: https://arxiv.org/pdf/2401.00368 技术报告: https://arxiv.org/pdf/2402.05672 背景 首先作者强调了 embedding 即文本表示的重要性:embedding 对于文本匹配 /qa 以及搜广推都应用很广,最近 rag 也很多依赖于 embedding 来检索。 然后简单介绍了文本表示的做法,最简单就是词向量做平均,后续有 sentence bert 等工作,最近有 E5 和 BGE 这些更复杂的做法,先设计一些预训练策略然后做一些高质量数据的微调。但是,这些工作也还是存在问题的: 问题1:模型 依赖于各种复杂的训练策略和多轮流程 ,需要做很多工程的工作来处理各种数据集; 问题2:模型受到 任务和语言的数据集 等限制,很多模型可能只支持英语或者中文(毕竟微软面向全球,所以对多语言的支持非常看重); 问题3:目前 emb 模型大多基于 bert 类模型, 没有结合大模型 ,也
………………………………