专栏名称: PaperAgent
日更,解读AI前沿技术热点Paper
今天看啥  ›  专栏  ›  PaperAgent

大幅降低LLM对困难样本错误分类与幻觉的新方法,最高减少22.7%

PaperAgent  · 公众号  ·  · 2024-06-29 17:09
    

主要观点总结

大型语言模型(LLM)在多类分类任务中表现良好,但存在分类错误和生成词汇表外类别标签的问题。为此,提出了名为“Paraphrase and Aggregate (PAG)-LLM”的方法,通过生成输入查询的多个释义并执行多类分类,根据置信度分数聚合所有分类标签,以减小误分类和幻觉标签生成错误。文章还介绍了PAG-LLM在CLINC和Banking数据集上的评估结果,以及在领域内和领域外数据集上的性能表现。

关键观点总结

关键观点1: LLM在多类分类任务中的表现及存在的问题

LLM在大型多类分类任务中表现出色,但存在分类错误,甚至生成词汇表外的类别标签。

关键观点2: Paraphrase and Aggregate (PAG)-LLM方法的介绍

PAG-LLM通过生成输入查询的多个释义,对原始查询和每个释义执行多类分类,并根据置信度分数聚合所有分类标签。该方法旨在减少LLM在困难示例中的误分类和幻觉标签生成错误。

关键观点3: PAG-LLM的流程

当LLM对原始查询的分类置信度低于阈值τ时,会生成释义,这些释义再次被分类。最后,LLM聚合来自释义和原始查询的预测类别标签。

关键观点4: PAG-LLM的评估结果

在CLINC和Banking数据集上评估了PAG-LLM,分别展示了22.7%和15.1%的错误减少。此外,PAG-LLM在减少词汇表外(OOV)类别标签生成错误方面特别有效。


文章预览

大型语言模型(LLM) 在大型多类分类任务中表现出色,但仍然存在 分类错误 ,甚至生成了 词汇表外的类别标签 。 为了解决这些问题,提出了一种称为“ Paraphrase and AGgregate (PAG)-LLM ”的方法: LLM生成输入查询的多个释义(平行查询) 对原始查询和每个释义执行多类分类 根据置信度分数聚合所有分类标签 该方法特别适用于LLM不确定的困难示例,可以减少关键的误分类和幻觉标签生成错误。 左侧的图展示了PAG-LLM的流程 。在Figure 1(A)中,LLM对原始查询进行分类,只有当分类置信度低于阈值τ时,原始查询才会被提供给LLM以生成释义,这些释义随后再次被提供给 LLM进行分类。最后,LLM聚合来自释义和原始查询的预测类别标签。 展示了来自CLINC的示例,其中LLM分类了错误的标签(顶部示例)和词汇表外(OOV)类别标签(底部示例)。 在顶部示例中 , ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览