改错能力是这轮推理模型带来的基础能力之一

孔某人的低维认知 · 公众号 · · 2025-02-27 16:46

文章预览

继续是一个小短文。导言刚刚测了下Claude 3.7 Sonnet Thinking模式在文本改错上的表现，场景是技术性语音对话的转录结果改错。 Claude 3.7 Sonnet Thinking的表现看起来跟o1正式版是同一档次，由于这两者的成本都较贵，暂时我还没有做过详细对比，不知道谁更好。但超过R1是毫无问题的。当然R1目前还是不错的，贵在便宜。并远好于目前其他提供API的推理模型。当然我很期待Grok3的API开放，以及Qwq-max的开放。尤其是后者有望竞争R1的性价比位置。正文文本改错类问题是在o1-preview发布的一个月之后，我自己发现的第一个能从STEM和编程泛化到其他领域的能力。很明显OpenAI应该没有针对这类问题训练过o1-preview，但它的表现真的明显超过过去其他模型。而这类的文本改错能力在非推理模型上明显表现不佳，即使是效果在现在看来不太好的Qwq-32b-preview，都能够超 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博