文章预览
今天凌晨1点,OpenAI终于正式发布了传说中的“草莓”模型——o1。 除了名字不一样,功能、推理、性能等方面与之前泄漏的内容基本一致,o1的推理模式很特殊,在回答用户问题之前会进入拟人化思考模式,将问题分解成更小的步骤逐一解决,生成一个较长的内部思维链,回答的内容也更加准确。 这个技术谷歌DeepMind很早之前便进行过解读称为——训练时计算(Test-time
computation)。其核心技术主要使用了密集型、流程导向的验证奖励模型搜索,以及自适应地更新模型对响应的概率分布两种方法。 根据OpenAI公布测试的数据显示, o1在美国数学奥林匹克预选赛中,排名美国前500 名学生之列,并且在物理、生物学、化学基准上,首次超过了人类博士 。也就是说,o1超过了GPT-4o,是现役最强的超复杂推理大模型。 o1主要开发人员介绍该产品 已经使用上的
………………………………