北大千问团队推出数学专用版CriticGPT，“找茬”让大模型进步更快

北大青年CEO俱乐部 · 公众号 · · 2024-07-08 18:00

文章预览

批评不仅能让人进步，也能让大模型的能力提升。 OpenAI就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是，就在CriticGPT放出的前几天，北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。在无需训练的设置下，验证器能够在推理时辅助模型在GSM8K上的准确率从86.6%提升到88.2%。在GSM8K数据集上，它可以让模型的准确率从86.6%提升到88.2%。 CriticGPT的核心思路是在代码中故意设置bug并进行详细标注，然后用得到的数据训练出会debug的模型。北大团队发现，这种方法不仅在代码当中有用，也能帮助语言模型解决数学问题。于是团队利用相似的思路，把代码换成数学问题，推出了“数学版CriticGPT”—— Math-Minos 。用GPT4逐步提出修正意见在数学推理领域，验证解决方案的正确性，是确保推理质量的关键步骤。然而，现有的数学验证 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博