专栏名称: 斌叔OKmath
橙旭园CEO 教育博主 教育部双创优秀导师。前微软员工。橙旭园儿童编程创始人。
目录
今天看啥  ›  专栏  ›  斌叔OKmath

两名LLM合作逐步解决数学问题,互相学习对方的错误🎯原始问题:-20241202085539

斌叔OKmath  · 微博  ·  · 2024-12-02 08:55
    

文章预览

2024-12-02 08:55 本条微博链接 两名LLM合作逐步解决数学问题,互相学习对方的错误 🎯原始问题: 数学推理仍然是法学硕士面临的一大挑战。虽然存在包含问题和答案的数据集,但生成详细、准确的推理步骤却很困难。人工注释的步骤通常过于简洁或混乱,无法进行有效的训练。 ----- 🔧本文的解决方案: →介绍 Flow-DPO,这是一个使用两个 LLM 协同工作的多代理框架: - 回答 LLM:生成小的解决方案块 - 停止 LLM:确定答案是 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览