文章预览
进入今年,特别是二季度以后,关于AI的声音和市场走势开始变得非常分化。背后原因主要是两个:1、模型到底有多少进步?2、在看不到应用产生大幅正现金流的背景下,大企业的资本开支是否可持续? 很多人也简单的将两个问题合并成一个:到底模型能力有多强?还有多少进步空间? 这造成了一个有意思的现象,新模型和新工具的发布越来越像少数人的狂欢,例如OpenAI的“草莓”o1模型,例如Google的NotebookLM。相比之下,关于模型的质疑却似乎正在获得越来越多的关注。 例如,被刷屏的苹果刚发布的一篇论文:《GSM-Symbolic: Understanding the Limitations of
Mathematical Reasoning in Large Language Models》。 其实这篇主旨是试图建立一套更能反映模型局限性的评价方法和数据集,但是回到国内自媒体,就是O1没有推理能力。 事实真是如此吗?彻底回答这个问题,当
………………………………