文章预览
2025-02-06 15:10
本条微博链接
S1 这个模型用 6 美元成本,大概一千条数据 #AI创造营# #ai# #deepseek# 获得了跟 o1-preview 相似的结果 而且观测到了跟 O1 和 R1 类似的 scaling 表现 可能揭示了 o3-mini-low 和 o3-mini-high 是如何从 O3 蒸馏出来的 他们的方式是当 LLM 尝试用 " /think " 停止思考时,他们会强迫它继续思考,将其替换为 "Wait" 。 为了缩短或延长思考时间。它会开始质疑和反复核对答案。 o3-mini-low 对比 o3-mini-high 可能也是用了这个
………………………………