专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

AAAI 2025 | 通义实验室提出基于辩论的弱监督对齐强模型方法，探索超级对齐新范式

PaperWeekly · 公众号 · 科研 · 2025-02-28 19:21

文章预览

本研究提出了一种基于辩论的弱监督对齐强模型方法，探索了结合 scalable oversight 和 weak-to-strong generalization 解决超级对齐问题的新范式。论文标题： Debate Helps Weak-to-Strong Generalization 论文作者：郎皓、黄非、李永彬收录会议： AAAI 2025 (Special Track on AI Alignment, Oral) 论文链接： https://arxiv.org/abs/2501.13124 Highlights : 提出结合 scalable oversight 和 weak-to-strong generalization 的新方法，在 OpenAI 的 weak-to-strong 数据集取得更好的对齐效果。验证了辩论可更可靠从预训练大模型中抽取可信知识，并用于帮助训练弱监督模型。验证了弱模型的 ensemble，可帮助获得更可靠的监督信号。背景目前 AI 对齐技术依赖于人类的标注数据，譬如用于 supervised finetuning 的 human demonstrations，亦或是用于 RLHF 和 DPO 的 human preferences。未来超人模型（superhuman models）在一些领域会超越人类 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

社会学研究杂志 · 城镇家庭住房保有中的责任伦理与经济实践

15 小时前

自然系列 · Nature Careers自然职场，助力您科研生涯的每一步

20 小时前

PaperWeekly · AAAI 2025 | 通义实验室提出基于辩论的弱监督对齐强模型方法，探索超级对齐新范式

14 小时前

实验万事屋 · 我只想对我博士生师兄说：师兄，其实不是你舍不得我们，不想毕业，只是你的课题做得太烂，不允许而已……

2 天前

数据宝 · A股，大涨！超4000股红盘，机构这样看后市！低空经济再获政策力挺，这些概念股有望高增长

8 月前

转债君午盘纪要 · 这三个都彻底完蛋了！

6 月前