OpenAI：Multi-Agent博弈，大模型可读性更高！

PaperAgent · 公众号 · · 2024-07-18 16:54

文章预览

OpenAI发布了其关于提升大模型可读性的最新研究成果：用大型模型作为” 证明者（ Prover ） “来编写解决方案，用小型模型作为” 验证者（Verifier） “来检查它们，最终大模型输出可读性更高。使用多智能体（multi-agent）博弈训练，其中一个诚实的证明者和一个狡猾的证明者编写解决方案，由一个小型模型进行检查。诚实的证明者希望说服小模型接受正确的解决方案，而狡猾的证明者则试图用有缺陷的解决方案欺骗它。训练设置为了激励强模型（证明者）生成人类可读的文本，使用了一种训练方案，要求强模型生成解决方案，而弱得多的模型（验证者）可以轻松验证。具体来说，使用GPT-4系列中的大型和小型模型，它们的预训练计算量相差约3个数量级，这些模型对人类编写的数学推导进行了少量监督训练。首先，从证明模型中生成多 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博