专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用

新智元  · 公众号  · AI  · 2024-09-21 13:25

主要观点总结

本文报道了关于CoT(链式思维)技术在不同任务中的效果研究。研究来自UT-Austin、霍普金斯、普林斯顿等机构,他们对100多篇论文进行了定量元分析,并评估了CoT在14个模型的20个数据集上的性能。研究发现,CoT在涉及数学、逻辑任务中能够增强LLM性能,但在其他类型任务上收益较小。作者指出CoT应有选择性地应用,并平衡性能和推理计算成本。文章还提到了未来研究中需超越基于提示的CoT,转向利用整个LLM中间计算的新范式。

关键观点总结

关键观点1: 研究背景

来自UT-Austin、霍普金斯、普林斯顿等机构的研究人员对CoT技术进行了研究,该技术主要在LLM复杂推理能力方面发挥作用。

关键观点2: 研究方法

研究人员通过定量元分析了100多篇论文,并评估了CoT在14个模型的20个数据集上的性能。他们还对CoT在不同任务类别中的性能进行了深入研究。

关键观点3: 研究结果

研究发现,CoT在符号推理任务(包括数学和逻辑推理)中表现最佳,平均提高分别为14.2%、12.3%和6.9%。但在其他类别任务中,使用CoT的平均性能与不使用CoT相近。

关键观点4: 关于CoT应用的建议

作者建议应有选择性地应用CoT,尤其是在需要处理数学和逻辑推理的任务中。不当使用CoT可能导致推理成本增加。

关键观点5: 未来研究方向

研究人员提出未来研究需要超越基于提示的CoT,转向利用整个LLM中间计算的新范式。


文章预览

   新智元报道   编辑:桃子 【新智元导读】 CoT只对数学、符号推理才起作用,其他的任务几乎没什么卵用!这是来自UT-Austin、霍普金斯、普林斯顿三大机构研究人员联手,分析了100+篇论文14类任务得出的结论。看来,CoT并非是所有大模型标配。 谷歌CoT开山之作,再次成为OpenAI o1模型的利器。 LLM复杂推理能力的实现,就离不开一步一步思考,但是这种「思考」究竟对于什么类型的任务有帮助呢? 来自UT-Austin、霍普金斯、普林斯顿的研究人员,使用CoT对100多篇论文,进行了定量元分析。 论文地址:https://arxiv.org/abs/2409.12183 同时,他们还对14个模型的20个数据集,进行了评估。 结果显示,CoT在涉及数学、逻辑任务中,能够增强LLM性能,但在其他类型任务上,收益较小。 在MMLU中,除非问题或模型回答中包含“=”(表示符号运算和推理),否则直接 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览