专栏名称: 清熙
清晰、客观、理性探讨大模型(LLM)、人工智能(AI)、大数据(Big Data)、物联网(IoT)、云计算(Cloud)、供应链数字化等热点科技的原理、架构、实现与应用。
今天看啥  ›  专栏  ›  清熙

仅适用于数学和逻辑推理,还要不要CoT?

清熙  · 公众号  ·  · 2024-09-23 20:31

文章预览

研究 : 德州大学奥斯汀分校、约翰霍普金斯和普林斯顿大学的研究人员, 对不同任务领域的 CoT (Chain of Thought 思维链)提示的有效性做了全面评估。 包括对 100 多篇 CoT 相关论文的定量统合分析, 并对跨越 20 个数据集和 14 个模型的 CoT 做了有效性专门评估。 论文: https://arxiv.org/abs/2409.12183 结果: 左图:CoT文献的统合分析,每个点代表某些“(LLM,任务)对”上,CoT相比于直接回答的delta值。 右图:在一般推理的五个类别中,使用零样本CoT与直接答案提示对照的平均表现,评估覆盖20个数据集和14个LLM。 在两组结果中,数学和其他类型的符号推理是始终可以看到显著改进的领域(红色虚线表示跨实验的CoT平均改进)。 上图为统合分析的结果(灰色圆点)按论文和类别(蓝色圆点)汇总。 发现: CoT 主要在涉及数学或逻辑的任务上提供强大的性能优 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览