文章预览
来源 :DeepHub IMBA 本文 约1800字 ,建议阅读 5分钟 Coconut(连续思维链)提出了一种新的大语言模型推理范式。 Coconut(连续思维链)提出了一种新的大语言模型推理范式,该范式在潜在空间中进行运算,利用模型隐藏层生成的连续思维状态取代传统的基于文本的推理方式。系统将这些状态以输入嵌入的形式反馈至模型,通过广度优先搜索方法同时探索多条推理路径,避免了单一路径推理的局限性。通过规避基于自然语言推理的固有效率瓶颈,Coconut在需要回溯的逻辑任务中展现出显著的性能优势,同时大幅降低了推理过程中的token消耗。 技术方法 Coconut的核心机制是在"语言模式"和"潜在模式"之间进行动态切换。语言模式下,模型采用标准语言模型的自回归方式生成token序列。潜在模式下,推理过程在无约束的潜在空间中展开,模型直接将最后一个隐
………………………………