大模型越来越小，并且更加智能！

PaperAgent · 公众号 · · 2024-07-19 11:53

文章预览

基于大模型过往的发展趋势，特别是今天 GPT-4o Mini 、 Mistral NeMo 接连发布，AI大佬 Andrej Karpathy 做出如下预判：“ 我们会看到一些非常非常小的模型，它们能够“思考”得非常好且可靠 ”；而且大模型的发展路线是：“ 模型必须首先变得更大，然后才能变得更小 ”。观点解读大模型现状：当前模型之所以如此庞大，是因为在训练过程中非常浪费，要记住大量知识——整个互联网，甚至要记住常见数字的SHA哈希值，导致这些知识与“思考"能力交织在一起。训练数据的优化：为了实现更小但更智能的模型，需要首先让模型变得更大，以便它们能够自动帮助重构和优化训练数据。这是一个逐步改进的阶梯式过程，一个模型帮助生成下一个模型的训练数据，直至得到 “ 完美的训练集 ” 。小模型的可能：尽管 GPT-2 规模的模型可能在某些方面 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博