文章预览
研究 : 德州大学奥斯汀分校、约翰霍普金斯和普林斯顿大学的研究人员, 对不同任务领域的 CoT (Chain of Thought 思维链)提示的有效性做了全面评估。 包括对 100 多篇 CoT 相关论文的定量统合分析, 并对跨越 20 个数据集和 14 个模型的 CoT 做了有效性专门评估。 论文: https://arxiv.org/abs/2409.12183 结果: 左图:CoT文献的统合分析,每个点代表某些“(LLM,任务)对”上,CoT相比于直接回答的delta值。 右图:在一般推理的五个类别中,使用零样本CoT与直接答案提示对照的平均表现,评估覆盖20个数据集和14个LLM。 在两组结果中,数学和其他类型的符号推理是始终可以看到显著改进的领域(红色虚线表示跨实验的CoT平均改进)。 上图为统合分析的结果(灰色圆点)按论文和类别(蓝色圆点)汇总。 发现: CoT 主要在涉及数学或逻辑的任务上提供强大的性能优
………………………………