Best-of-N生成验证器（GenRM）的系统提示SYSTEM PROMPT

AI修猫Prompt · 公众号 · · 2024-08-30 14:12

文章预览

Best-of-N策略的核心思想非常直观：从基础语言模型中采样N个输出，然后选择其中奖励值最高的一个作为最终输出。这种方法不需要对模型进行微调，就能显著提升输出质量，同时保持与基础模型的相似性。这个方法也可以用在内容生成方面，不是通过温度来增加内容丰富度，直接生成高质量样本使其整体可控。在《DeepMind最新：生成验证器（GenRM），让爆火的Best-of-N准确率又提高16-64%》这篇文章中，我介绍了 GenRM和GenRM-CoT，在 Best-of-N策略的基础上又增加了验证机制，这就更适合一些对输出内容要求严谨的场合。本文您可以得到一份完整的 Best-of-N步骤的 GenRM的 SYSTEM PROMPT，迭代后的变体，两个应用案例。您可以根据自己需求进行修改后使用。以下是文章内容： ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

高分子科学前沿 · 上海交大凌代舜教授课题组博士后招聘启事

21 小时前

上海发布 · 【提示】记牢这些心梗急救措施，关键时刻能保命！

3 天前

上海发布 · 虹桥枢纽核心区高架道路启动路面整治工程，相关交通组织调整

5 天前

高分子科学前沿 · 马光辉院士/樊春海院士/顾臻教授 Cell新姊妹刊联合讲座重磅来袭！

5 天前

上海发布 · 【探索】赏菊正当时，长三角地区菊花展信息一览→

6 天前

煮娱星球 · 这么会阴阳…她路人缘彻底败光了！

2 月前

MaterialsViews · 香港理工大学AEnM：超高新型品质因数，基于逐步沉积法构筑的厚膜非稠环受体有机太阳能电池

2 月前