专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

Bge-en-icl: 当in-context learning遇上了text embedding...

AINLP  · 公众号  ·  · 2024-10-14 08:50

文章预览

提纲 1 简介 2 方法     2.1 模型输入     2.2 Pooling策略     2.3 训练方式 3 实验 4 实验结论 5 讨论 参考文献 1 简介     In-context learning作为大模型的一种能力特性,使得大模型具备利用examples去处理类似任务的能力,在很多生成任务中能经常看到这种做法,但在text embedding任务中则没有先例。于是研究人员提出了 bge-en-icl,通过提供若干个相关examples去生成高质量文本表征,具体做法就是在query端插入跟任务相关的examples,这种新的方法既保持了原本的模型结构又取得了明显受益 。相关训练数据跟模型已经公开了,有兴趣的朋友可以自行查阅https://huggingface.co/BAAI/bge-en-icl。 图1: MTEB榜单(截止2024/09/27) 2 方法 2.1 模型输入 图2: ICL-based 模型框架     目前主流的text embedding模型会在query端跟document分别加上对应的instruction, 让模型根据instruction生成对 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览