专栏名称: 清熙
清晰、客观、理性探讨大模型(LLM)、人工智能(AI)、大数据(Big Data)、物联网(IoT)、云计算(Cloud)、供应链数字化等热点科技的原理、架构、实现与应用。
今天看啥  ›  专栏  ›  清熙

LLM CoT的工作原理

清熙  · 公众号  ·  · 2024-05-16 16:54
    

文章预览

思 维链(CoT:Chain of Thought)常常作为增强大模型推理能力的利器,   但大模型推理能力的提升多大程度上来自人为任务 拆解 ?还是额外提示的Token激发了背后更强大的计算?     “让我们逐步思考:Transformer语言模型中的隐藏计算”[文献1] 发现了一个有趣的现象,   通过在思维链中添加无意义的中间Token(例如“……”)可以解决无中间Token时没法完成的较难的两个算法任务。   文献的结论是: 添加额外Token就可以增强大模型推理,甚至可以与Token本身内容选择无关。     网友本就惊讶于著名提示词“让我们一步一步地想”(Let‘s think step by step)的神奇效果,   对本论文描述的“AI不依赖人类经验的token内容,隐藏自行推理”,就更觉得魔幻且担忧。   不过笔者发现,斯坦福谷歌等学者的预印论文,“思维链使Transformer能解决内在串行的问题 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览