用这条Q-Star的prompt让LLM拥有MDP，深思熟虑规划你的复杂推理

AI修猫Prompt · 公众号 · · 2024-07-30 15:01

文章预览

点击上方蓝字关注我本文：5200字阅读 14分钟人类行为通常可以使用马尔可夫决策过程(MDP)进行有效建模。但处理一些复杂推理时，当面对需要多步推理的问题时，即便是最先进的LLMs也常常力不从心，尤其在进行多步推理时容易产生错误、幻觉和不一致的陈述。这就像一个经验不充分的人在解决复杂问题时，仅仅依靠直觉和快速思考，而没有进行深入的推理和规划。图片来自公众号公共图片库来自Skywork AI和南洋理工大学的研究者提出了提出了 Q* ，一个通用敏捷的框架，用于提高机器学习的多步推理能力，能够让 LLM 获得深思熟虑的规划能力。 01 Q*：AI推理的规则改变者在理解Q*之前，我们首先要了解马尔可夫决策过程 (MDP)。这是一种数学框架，用于模拟决策者在部分随机的环境中做出一系列决策的情况。关于马尔可夫决策过程(MDP)这一概念 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

美股研究社 · 11月累计上涨18.88%，三季报来袭之际，小鹏粉们能否“满载而归”？

2 天前

牲产队 · 哪吒汽车，陷入生死边缘！

6 天前

牲产队 · 哪吒汽车，陷入生死边缘！

6 天前

有车以后 · 极速391.94km/h！这国产超跑再次刷新中国汽车极速记录！

6 天前

有车以后 · 不用请司机，高端MPV以后是这样？华为加持的MPV真牛

6 天前

美妆网 · 直击iPDF现场！听听来自一线的声音

4 月前

最爱历史 · 雨刮器革命

1 月前