主要观点总结
本文介绍了一项新的研究,该研究提出了一种名为“思考偏好优化”(TPO)的方法,旨在让语言模型像OpenAI-o1一样通过内部“思考”输出更好答案。该方法结合了思维链式提示/推理融入训练和LLM评判来评估响应,基于Llama 3 8B Instruct的结果显示TPO效果良好。华人学者Tianhao Wu是该论文的一作,介绍了模型的优势和细节,并提到该研究的目的是构建可以解决复杂任务的大规模模型。
关键观点总结
关键观点1: 研究提出了一种名为“思考偏好优化”(TPO)的方法,让模型像OpenAI-o1一样进行内部“思考”,以提高答案质量。
TPO结合了思维链式提示/推理融入训练和LLM评判,基于Llama 3 8B Instruct的结果显示其效果显著。
关键观点2: TPO的优势在于提高了模型的性能,特别是在指令数据和基准测试中。
在AlpacaEval基准测试中,使用TPO的模型获得52.5%的胜率,比基线提升4.1%;在Arena-Hard测试上,胜率提升约4%。
关键观点3: 研究介绍了论文的一作华人学者Tianhao Wu和他的研究团队。
Tianhao Wu是加州大学伯克利分校的博士生,他的研究重点是强化学习改善大语言模型的指令遵循和推理能力。
文章预览
西风 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI-o1替代品来了,大模型能根据任务复杂度进行不同时间的思考。 不限于推理性的逻辑或数学任务, 一般问答也能思考 的那种。 最近畅销书《Python机器学习》作者 Sebastian Raschka 推荐了一项新研究,被网友们齐刷刷码住了。 论文一作为华人学者Tianhao Wu,导师之一是2011年清华特奖得主焦剑涛。 团队提出了一种称作 思考偏好优化 ( T hought P reference O ptimization) 的方法,能让模型像OpenAI-o1一样,通过内部“思考”输出更好答案,最终只显示结果,不展示思考过程。 TPO将思维链式提示/推理融入训练中: 在回答之前,用 思维链 式方法进行思考;使用一个LLM 评判来 评估 响应 (不包括由LLM生成的想法) ;根据被拒绝和优选的响应形成偏好对进行 DP O (包括这些响应中的想法) 。 基于Llama 3 8B Instruct的结果表
………………………………