注册登录

专栏名称: NLP工作站

AIGC前沿知识分享&落地经验总结

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

闽南日报 · 期待！漳州将建“天空栈道”！ · 昨天

济南时报 · 济南CityWalk“花式”路线来了！万般美 ... · 昨天

旅行雷达助手 · 周末直播，全国多城便捷酒店119元单晚通兑； ... · 2 天前

辽宁文旅 · 大连推出“足球嘉年华”主题IP ... · 2 天前

辽宁文旅 · 大连推出“足球嘉年华”主题IP ... · 2 天前

似水之流年 · 香花云遍满十方界 · 2 天前

似水之流年 · 香花云遍满十方界 · 2 天前

今天看啥 › 专栏 › NLP工作站

CodePMP：提升LLM推理能力的可扩展偏好模型预训练

NLP工作站 · 公众号 · · 2024-10-12 10:10

文章预览

作者：鱼汇沐机构：中国科学院信息工程研究所 paper: https://arxiv.org/abs/2410.02229 在LLM（大语言模型）的对齐训练中，尽管RLHF（基于人类反馈的强化学习）方法被证明是有效的，但它的效果依赖于RM（奖励模型）的能力。然而，训练RM需要高质量的偏好数据，在复杂推理领域（如数学和逻辑推理），这些数据的获取成本高昂且标注困难。此类偏好数据不仅需要多样化的prompt和响应，还需要准确的人类反馈。因此，提高复杂推理领域偏好数据的利用效率，即有限标注数据的情况下训练出更强大的RM，具有重要意义。幸运的是，GitHub上有大量公开的源代码数据，经过筛选后可以获得高质量且规模庞大的代码片段。这些高质量代码片段不仅数量可观，而且具有丰富的多样性，可以用来反向生成多样化的code prompt（代码描述）。此外，CodeLLM（代码语言模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

闽南日报 · 期待！漳州将建“天空栈道”！

昨天

济南时报 · 济南CityWalk“花式”路线来了！万般美景等你打卡

昨天

旅行雷达助手 · 周末直播，全国多城便捷酒店119元单晚通兑；日本星野12店通兑补货

2 天前

辽宁文旅 · 大连推出“足球嘉年华”主题IP 全力打造“足球之旅”首选城市

2 天前

辽宁文旅 · 大连推出“足球嘉年华”主题IP 全力打造“足球之旅”首选城市

2 天前

似水之流年 · 香花云遍满十方界

2 天前

似水之流年 · 香花云遍满十方界

2 天前

北大就业 · 教育行业招聘信息汇总 | 曲阜师范大学、景德镇学院等

9 月前

并购优塾产业链地图 · Power BI商业智能数据分析，业财数字化能力应用班（线下活动，上海站）

6 月前

生态修复网 · 【技术交流】西湖大学张岩岩实验室ES&T：中国土壤中全/多氟烷基化合物（PFAS）来源解析与空间分布驱动因子

4 月前

游戏家联盟 · 「游戏家联“萌”」可爱话痨“虫虫”，会心理辅导的萌妹游戏家！

3 月前

香港直通车 · 震惊！高才续签政策突变，短期合同=短期续签？

2 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号