专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

NeurIPS 2024 | 可信大模型新挑战：噪声思维链提示下的鲁棒推理，准确率直降40%

机器之心 · 公众号 · AI · 2024-12-12 16:44

主要观点总结

本文介绍了关于机器之心发布的AIxiv专栏的研究，该专栏报道了大语言模型（LLM）在噪声思维链下的推理鲁棒性问题。文章涵盖了新问题的提出、新数据集的构建、以及新方法的探索等三个方面的介绍。研究发现，LLM在面对噪声思维链时容易受到干扰，导致推理性能下降。因此，文章提出了一个新的数据集NoRa，用于评估LLM的鲁棒性，并设计了一种简单有效的方法CD-CoT去纠正噪声思维链并完成推理。最后，文章介绍了相关研究成果和课题组介绍。

关键观点总结

关键观点1: 研究背景

机器之心发布的AIxiv专栏关注全球各大高校与企业的顶级实验室的学术、技术内容，本次工作关注大语言模型（LLM）在噪声思维链下的推理鲁棒性问题。

关键观点2: 新问题提出

文章提出了对当前流行的思维链提示技术中尚未充分探究的噪声思维链问题，并给出了详细的问题定义和统一的问题建模。

关键观点3: 新数据集构建

为了评估LLM在噪声思维链提示下的推理鲁棒性，文章构建了NoRa数据集，该数据集涵盖了三种推理任务类型，通过插入噪声推理步骤生成噪声思维链，并使用不同的噪声比例控制任务的困难程度。

关键观点4: 现有方法评估

文章在NoRa数据集上测试了多种去噪方法，发现LLM在应对噪声思维链时自身的去噪能力有限，现有方法效果也不理想。

关键观点5: 新方法探索

针对现有方法的不足，文章提出了一种简单有效的去噪推理方法CD-CoT，通过对比有噪和干净的思维链，识别出噪声信息，并进行显式去噪和精细推理。

关键观点6: 实验结果

在NoRa数据集上，CD-CoT方法显著提升了LLM的推理鲁棒性，尤其是面对高噪声时的表现。

关键观点7: 课题组介绍

文章最后介绍了香港浸会大学可信机器学习和推理课题组的相关研究内容和研究团队。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

爱可可-爱生活 · [CL]《MIRIX: Multi-Agent Memory S-20250714061129

23 小时前

爱可可-爱生活 · 本文通过精准的错误分析揭示了现有强化学习方法在多模态推理中“视而-20250713055105

昨天

新智元 · 新智元十年，ASI降临，诚邀你加入！

2 天前

宝玉xp · 不是，CEO他们卖了奥特曼和其他员工//@时蝇喜箭:被奥特曼耍了-20250712092934

2 天前

宝玉xp · 你要正经看看代码就知道是vibe coding 出来蹭热度的项目-20250711235846

3 天前

大庆晚报 · 大庆市关于启动重污染天气Ⅲ级（黄色）预警的通告

6 月前

新闻坊 · 他因车祸去世！上海华山医院发文...

3 月前

中国商报 · 抽查符合国标！千禾高管：感觉很冤！刚刚，股价回升！

3 月前

晓磊的基金生活 · #基金##买基金上微博# 看今天短端信用债的架势，应该要停下“-20250327150510

3 月前

数码闲聊站 · 之前说过了，OPPO Pad 4 Pro的ColorOS 15预-20250328140009

3 月前