专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
目录
相关文章推荐
今天看啥  ›  专栏  ›  大模型智能

华为最新研究挑战Scaling Law

大模型智能  · 公众号  ·  · 2024-05-28 00:00
    

文章预览

大模型智能|分享 来源 | 量子位 作者 | 克雷西 “Scaling Law不是万金油”——关于大模型表现,华为又提出了新理论。 他们发现,一些现象无法用Scaling Law来解释,进而开展了更加深入的研究。 根据实验结果,他们认为Transformer模型的成绩,与记忆力高度相关。 具体来说,他们发现Scaling Law的缺陷主要有这两种表现: 一是一些小模型的表现和大一些的模型相当甚至更好,如参数量只有2B的MiniCPM,表现与13B的Llama接近。 二是在训练大模型时,如果过度训练,模型表现不会继续增加,反而呈现出了U型曲线。 经过深入研究和建模,团队结合了 Hopfield联想记忆模型 ,提出了大模型表现的新解释。 有人评价说,联想记忆是人类所使用的一种记忆方法,现在发现大模型也会用,可以说是AI理解力的跃迁。 不过需要指出的是,这项研究虽有挑战之意,但并非 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览