主要观点总结
本文介绍了在有监督微调场景下,使用LLM作为基座进行Reranker任务的方法。文章探讨了使用LLM的两种方法:生成方法和判别方法,并进行了实验比较。此外,文章还介绍了将LLM的能力蒸馏到BERT中的方法。实验结果表明,在数据量较少或难负例较少的情况下,LLM的方法相比BERT有优势,但在数据充足的情况下这种优势会被减弱。最佳实践建议根据数据量和需求选择合适的方法。
关键观点总结
关键观点1: LLM作为Reranker任务的基座的优势
模型参数多,预训练阶段数据多,输入长度更长和多语言支持。
关键观点2: 两种使用LLM做Reranker任务的方法
生成方法:直接使用LLM预测相关性和不相关性;判别方法:在大模型后面增加MLP层来得到分数。
关键观点3: 实验设置和结果
实验包括不同数据量、难负例数量的情况。在数据量较少或难负例较少的情况下,LLM的方法相比BERT有优势。在全量数据的情况下,差距不大。
关键观点4: 蒸馏到BERT中的方法
使用蒸馏logits的方法将LLM的能力蒸馏到BERT中,可以提高BERT的性能。
关键观点5: 最佳实践建议
根据数据量和需求选择合适的方法。如果数据充足且不需要大模型的两个特性,可以直接训练BERT模型。如果数据较少或需要大模型特性,优先选择LLM为基座的方法,并可以考虑将其蒸馏到BERT中以提高推理效率。
文章预览
知乎:车中草同学(已授权) 链接:https://zhuanlan.zhihu.com/p/987727357 引言 在BERT时代,对于Reranker任务,我们使用encoder-only的BERT为基座,拼接query和doc输入到BERT中去,在使用CLS的向量通过一个MLP,得到得分来做Reranker任务。 在LLM出来之后,一个很自然的想法是,我们能否使用decoder-only的LLM来作为Reranker任务的基座。 本篇实验报告中,在有监督微调的场景下,如下图所示,笔者探索了以下两种使用LLM做Reranker任务的方法。并且与BERT类模型做比较。 生成的方法:直接用生成的方法去做,输入query和doc,直接让大模型预测相关(是)和不相关(否)。 判别的方法:和传统的BERT一样,在大模型后面增加一个MLP层,来得到score。一般是:让llm的last_hidden_state通过MLP层去得到一个score。 本篇实验报告试图回答这几个问题 ? 在reranker任务上使用llm,是否比bert类模型有
………………………………