专栏名称: PaperAgent
日更,解读AI前沿技术热点Paper
目录
相关文章推荐
庞门正道  ·  咦~他的副业是做蟲! ·  18 小时前  
今天看啥  ›  专栏  ›  PaperAgent

大模型越来越小,并且更加智能!

PaperAgent  · 公众号  ·  · 2024-07-19 11:53

文章预览

基于大模型过往的发展趋势,特别是今天 GPT-4o Mini 、 Mistral NeMo 接连发布 ,AI大佬 Andrej Karpathy 做出如下预判:“ 我们会看到一些非常非常小的模型,它们能够“思考”得非常好且可靠 ”;而且大模型的发展路线是:“ 模型必须首先变得更大,然后才能变得更小 ”。 观点解读 大模型现状 : 当前模型之所以如此庞大,是因为在训练过程中非常浪费,要记住大量知识——整个互联网,甚至要记住 常见数字的SHA哈希值 ,导致 这些知识与“思考"能力交织在一起。 训练数据的优化 :为了实现更小但更智能的模型,需要首先让模型变得更大,以便它们能够自动帮助重构和优化训练数据。 这是一个逐步改进的阶梯式过程,一个模型帮助生成下一个模型的训练数据 , 直至得到 “ 完美的训练集 ” 。 小模型的可能 :尽管 GPT-2 规模 的模型可能在某些方面 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览