专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

ACL 2024 | 文本表示新SOTA!微软用大模型及其生成数据优化Text Embedding

PaperWeekly  · 公众号  · 科研  · 2024-09-13 22:14

文章预览

©作者 |  json和Jason 论文链接: https://arxiv.org/pdf/2401.00368 技术报告: https://arxiv.org/pdf/2402.05672 背景 首先作者强调了 embedding 即文本表示的重要性:embedding 对于文本匹配 /qa 以及搜广推都应用很广,最近 rag 也很多依赖于 embedding 来检索。 然后简单介绍了文本表示的做法,最简单就是词向量做平均,后续有 sentence bert 等工作,最近有 E5 和 BGE 这些更复杂的做法,先设计一些预训练策略然后做一些高质量数据的微调。但是,这些工作也还是存在问题的: 问题1:模型 依赖于各种复杂的训练策略和多轮流程 ,需要做很多工程的工作来处理各种数据集; 问题2:模型受到 任务和语言的数据集 等限制,很多模型可能只支持英语或者中文(毕竟微软面向全球,所以对多语言的支持非常看重); 问题3:目前 emb 模型大多基于 bert 类模型, 没有结合大模型 ,也 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览