文章预览
基于大模型过往的发展趋势,特别是今天 GPT-4o Mini 、 Mistral NeMo 接连发布 ,AI大佬 Andrej Karpathy 做出如下预判:“ 我们会看到一些非常非常小的模型,它们能够“思考”得非常好且可靠 ”;而且大模型的发展路线是:“ 模型必须首先变得更大,然后才能变得更小 ”。 观点解读 大模型现状 : 当前模型之所以如此庞大,是因为在训练过程中非常浪费,要记住大量知识——整个互联网,甚至要记住 常见数字的SHA哈希值 ,导致 这些知识与“思考"能力交织在一起。 训练数据的优化 :为了实现更小但更智能的模型,需要首先让模型变得更大,以便它们能够自动帮助重构和优化训练数据。 这是一个逐步改进的阶梯式过程,一个模型帮助生成下一个模型的训练数据 , 直至得到 “ 完美的训练集 ” 。 小模型的可能 :尽管 GPT-2 规模 的模型可能在某些方面
………………………………