专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

NeurIPS 2024 | 可信大模型新挑战:噪声思维链提示下的鲁棒推理,准确率直降40%

机器之心  · 公众号  · AI  · 2024-12-12 16:44
    

主要观点总结

本文介绍了关于机器之心发布的AIxiv专栏的研究,该专栏报道了大语言模型(LLM)在噪声思维链下的推理鲁棒性问题。文章涵盖了新问题的提出、新数据集的构建、以及新方法的探索等三个方面的介绍。研究发现,LLM在面对噪声思维链时容易受到干扰,导致推理性能下降。因此,文章提出了一个新的数据集NoRa,用于评估LLM的鲁棒性,并设计了一种简单有效的方法CD-CoT去纠正噪声思维链并完成推理。最后,文章介绍了相关研究成果和课题组介绍。

关键观点总结

关键观点1: 研究背景

机器之心发布的AIxiv专栏关注全球各大高校与企业的顶级实验室的学术、技术内容,本次工作关注大语言模型(LLM)在噪声思维链下的推理鲁棒性问题。

关键观点2: 新问题提出

文章提出了对当前流行的思维链提示技术中尚未充分探究的噪声思维链问题,并给出了详细的问题定义和统一的问题建模。

关键观点3: 新数据集构建

为了评估LLM在噪声思维链提示下的推理鲁棒性,文章构建了NoRa数据集,该数据集涵盖了三种推理任务类型,通过插入噪声推理步骤生成噪声思维链,并使用不同的噪声比例控制任务的困难程度。

关键观点4: 现有方法评估

文章在NoRa数据集上测试了多种去噪方法,发现LLM在应对噪声思维链时自身的去噪能力有限,现有方法效果也不理想。

关键观点5: 新方法探索

针对现有方法的不足,文章提出了一种简单有效的去噪推理方法CD-CoT,通过对比有噪和干净的思维链,识别出噪声信息,并进行显式去噪和精细推理。

关键观点6: 实验结果

在NoRa数据集上,CD-CoT方法显著提升了LLM的推理鲁棒性,尤其是面对高噪声时的表现。

关键观点7: 课题组介绍

文章最后介绍了香港浸会大学可信机器学习和推理课题组的相关研究内容和研究团队。


文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 当前,大语言模型(Large Language Model, LLM)借助上下文学习(In-context Learning)和思维链提示(Chain of Thoughts Prompting),在许多复杂推理任务上展现出了强大的能力。 然而,现有研究表明, LLM 在应对噪声输入时存在明显不足 :当输入的问题包含无关内容,或者遭到轻微修改时,模型极容易受到干扰,进而偏离正确的推理方向。如图 1 左所示,Q1 中的「We know 6+6=12 and 3+7=10 in base 10 」 是关于 base-9 计算的噪声信息,该信息容易误导模型输出错误的结果。 图 1. 噪声问题(Nois ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览