OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好优化，不限于推理任务

量子位 · 公众号 · AI · 2024-10-28 15:54

主要观点总结

本文介绍了一项新的研究，该研究提出了一种名为“思考偏好优化”（TPO）的方法，旨在让语言模型像OpenAI-o1一样通过内部“思考”输出更好答案。该方法结合了思维链式提示/推理融入训练和LLM评判来评估响应，基于Llama 3 8B Instruct的结果显示TPO效果良好。华人学者Tianhao Wu是该论文的一作，介绍了模型的优势和细节，并提到该研究的目的是构建可以解决复杂任务的大规模模型。

关键观点总结

关键观点1: 研究提出了一种名为“思考偏好优化”（TPO）的方法，让模型像OpenAI-o1一样进行内部“思考”，以提高答案质量。

TPO结合了思维链式提示/推理融入训练和LLM评判，基于Llama 3 8B Instruct的结果显示其效果显著。

关键观点2: TPO的优势在于提高了模型的性能，特别是在指令数据和基准测试中。

在AlpacaEval基准测试中，使用TPO的模型获得52.5%的胜率，比基线提升4.1%；在Arena-Hard测试上，胜率提升约4%。

关键观点3: 研究介绍了论文的一作华人学者Tianhao Wu和他的研究团队。

Tianhao Wu是加州大学伯克利分校的博士生，他的研究重点是强化学习改善大语言模型的指令遵循和推理能力。

文章预览

西风发自凹非寺量子位 | 公众号 QbitAI OpenAI-o1替代品来了，大模型能根据任务复杂度进行不同时间的思考。不限于推理性的逻辑或数学任务，一般问答也能思考的那种。最近畅销书《Python机器学习》作者 Sebastian Raschka 推荐了一项新研究，被网友们齐刷刷码住了。论文一作为华人学者Tianhao Wu，导师之一是2011年清华特奖得主焦剑涛。团队提出了一种称作思考偏好优化（ T hought P reference O ptimization）的方法，能让模型像OpenAI-o1一样，通过内部“思考”输出更好答案，最终只显示结果，不展示思考过程。 TPO将思维链式提示/推理融入训练中：在回答之前，用思维链式方法进行思考；使用一个LLM 评判来评估响应（不包括由LLM生成的想法）；根据被拒绝和优选的响应形成偏好对进行 DP O （包括这些响应中的想法）。基于Llama 3 8B Instruct的结果表 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博