专栏名称: AI修猫Prompt
专注于生成式AI的Prompt Engineering领域。
今天看啥  ›  专栏  ›  AI修猫Prompt

用这条Q-Star的prompt让LLM拥有MDP,深思熟虑规划你的复杂推理

AI修猫Prompt  · 公众号  ·  · 2024-07-30 15:01

文章预览

点击上方 蓝字 关注我 本文:5200字阅读  14分钟   人类行为通常可以使用马尔可夫决策过程(MDP)进行有效建模。但处理一些复杂推理时,当面对需要多步推理的问题时,即便是最先进的LLMs也常常力不从心,尤其在进行多步推理时容易产生错误、幻觉和不一致的陈述。这就像一个经验不充分的人在解决复杂问题时,仅仅依靠直觉和快速思考,而没有进行深入的推理和规划。 图片来自公众号公共图片库 来自Skywork AI和南洋理工大学的研究者提出了提出了 Q* ,一个通用敏捷的框架,用于提高机器学习的多步推理能力,能够让 LLM 获得深思熟虑的规划能力。 01 Q*:AI推理的规则改变者 在理解Q*之前,我们首先要了解 马尔可夫决策过程 (MDP)。这 是一种数学框架,用于模拟决策者在部分随机的环境中做出一系列决策的情况。关于马尔可夫决策过程(MDP)这一概念 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览