专栏名称: 孔某人的低维认知
孔某人低维认知中世界的投影,世界很复杂,但人的认知总是过于简单。 ####关注领域:LLM技术及应用、认知科学、决策规划、机器学习、提升生产率的技术方案等。
目录
今天看啥  ›  专栏  ›  孔某人的低维认知

改错能力是这轮推理模型带来的基础能力之一

孔某人的低维认知  · 公众号  ·  · 2025-02-27 16:46
    

文章预览

继续是一个小短文。 导言 刚刚测了下Claude 3.7 Sonnet Thinking模式在文本改错上的表现,场景是技术性语音对话的转录结果改错。 Claude 3.7 Sonnet Thinking的表现看起来跟o1正式版是同一档次,由于这两者的成本都较贵,暂时我还没有做过详细对比,不知道谁更好。但超过R1是毫无问题的。 当然R1目前还是不错的,贵在便宜。并远好于目前其他提供API的推理模型。当然我很期待Grok3的API开放,以及Qwq-max的开放。尤其是后者有望竞争R1的性价比位置。 正文 文本改错类问题是在o1-preview发布的一个月之后,我自己发现的第一个能从STEM和编程泛化到其他领域的能力。很明显OpenAI应该没有针对这类问题训练过o1-preview,但它的表现真的明显超过过去其他模型。 而这类的文本改错能力在非推理模型上明显表现不佳,即使是效果在现在看来不太好的Qwq-32b-preview,都能够超 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览