今天看啥  ›  专栏  ›  NLP工作站

CodePMP:提升LLM推理能力的可扩展偏好模型预训练

NLP工作站  · 公众号  ·  · 2024-10-12 10:10

文章预览

作者:鱼汇沐   机构:中国科学院信息工程研究所  paper: https://arxiv.org/abs/2410.02229 在LLM(大语言模型)的对齐训练中,尽管RLHF(基于人类反馈的强化学习)方法被证明是有效的,但它的效果依赖于RM(奖励模型)的能力。然而,训练RM需要高质量的偏好数据,在复杂推理领域(如数学和逻辑推理),这些数据的获取成本高昂且标注困难。此类偏好数据不仅需要多样化的prompt和响应,还需要准确的人类反馈。因此,提高复杂推理领域偏好数据的利用效率,即有限标注数据的情况下训练出更强大的RM,具有重要意义。 幸运的是,GitHub上有大量公开的源代码数据,经过筛选后可以获得高质量且规模庞大的代码片段。这些高质量代码片段不仅数量可观,而且具有丰富的多样性,可以用来反向生成多样化的code prompt(代码描述)。此外,CodeLLM(代码语言模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览