专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

CodePMP：提升LLM推理能力的可扩展偏好模型预训练

AINLP · 公众号 · · 2024-10-12 17:58

文章预览

作者：鱼汇沐机构：中国科学院信息工程研究所 paper: https://arxiv.org/abs/2410.02229 在LLM（大语言模型）的对齐训练中，尽管RLHF（基于人类反馈的强化学习）方法被证明是有效的，但它的效果依赖于RM（奖励模型）的能力。然而，训练RM需要高质量的偏好数据，在复杂推理领域（如数学和逻辑推理），这些数据的获取成本高昂且标注困难。此类偏好数据不仅需要多样化的prompt和响应，还需要准确的人类反馈。因此，提高复杂推理领域偏好数据的利用效率，即有限标注数据的情况下训练出更强大的RM，具有重要意义。幸运的是，GitHub上有大量公开的源代码数据，经过筛选后可以获得高质量且规模庞大的代码片段。这些高质量代码片段不仅数量可观，而且具有丰富的多样性，可以用来反向生成多样化的code prompt（代码描述）。此外，CodeLLM（代码语言模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博