今天看啥  ›  专栏  ›  AI修猫Prompt

Best-of-N生成验证器(GenRM)的系统提示SYSTEM PROMPT

AI修猫Prompt  · 公众号  ·  · 2024-08-30 14:12

文章预览

Best-of-N策略的核心思想非常直观:从基础语言模型中采样N个输出,然后选择其中奖励值最高的一个作为最终输出。这种方法不需要对模型进行微调,就能显著提升输出质量,同时保持与基础模型的相似性。这个方法也可以用在内容生成方面,不是通过温度来增加内容丰富度,直接生成高质量样本使其整体可控。 在《DeepMind最新:生成验证器(GenRM),让爆火的Best-of-N准确率又提高16-64%》这篇文章中,我介绍了 GenRM和GenRM-CoT,在 Best-of-N策略的基础上又增加了验证机制,这就更适合一些对输出内容要求严谨的场合。 本文您可以得到一份完整的 Best-of-N步骤的 GenRM的 SYSTEM PROMPT,迭代后的变体,两个应用案例。您可以根据自己需求进行修改后使用。 以下是文章内容: ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览