专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化,不限于推理任务

量子位  · 公众号  · AI  · 2024-10-28 15:54

主要观点总结

本文介绍了一项新的研究,该研究提出了一种名为“思考偏好优化”(TPO)的方法,旨在让语言模型像OpenAI-o1一样通过内部“思考”输出更好答案。该方法结合了思维链式提示/推理融入训练和LLM评判来评估响应,基于Llama 3 8B Instruct的结果显示TPO效果良好。华人学者Tianhao Wu是该论文的一作,介绍了模型的优势和细节,并提到该研究的目的是构建可以解决复杂任务的大规模模型。

关键观点总结

关键观点1: 研究提出了一种名为“思考偏好优化”(TPO)的方法,让模型像OpenAI-o1一样进行内部“思考”,以提高答案质量。

TPO结合了思维链式提示/推理融入训练和LLM评判,基于Llama 3 8B Instruct的结果显示其效果显著。

关键观点2: TPO的优势在于提高了模型的性能,特别是在指令数据和基准测试中。

在AlpacaEval基准测试中,使用TPO的模型获得52.5%的胜率,比基线提升4.1%;在Arena-Hard测试上,胜率提升约4%。

关键观点3: 研究介绍了论文的一作华人学者Tianhao Wu和他的研究团队。

Tianhao Wu是加州大学伯克利分校的博士生,他的研究重点是强化学习改善大语言模型的指令遵循和推理能力。


文章预览

西风 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI-o1替代品来了,大模型能根据任务复杂度进行不同时间的思考。 不限于推理性的逻辑或数学任务, 一般问答也能思考 的那种。 最近畅销书《Python机器学习》作者 Sebastian Raschka 推荐了一项新研究,被网友们齐刷刷码住了。 论文一作为华人学者Tianhao Wu,导师之一是2011年清华特奖得主焦剑涛。 团队提出了一种称作 思考偏好优化 ( T hought P reference O ptimization) 的方法,能让模型像OpenAI-o1一样,通过内部“思考”输出更好答案,最终只显示结果,不展示思考过程。 TPO将思维链式提示/推理融入训练中: 在回答之前,用 思维链 式方法进行思考;使用一个LLM 评判来 评估 响应 (不包括由LLM生成的想法) ;根据被拒绝和优选的响应形成偏好对进行 DP O (包括这些响应中的想法) 。 基于Llama 3 8B Instruct的结果表 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览