一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

从计算理论看语言模型的scaling law和多模态模型的发展

深度学习自然语言处理  · 公众号  ·  · 2024-06-30 15:40

文章预览

引言 《人工智能简史》的作者尼克老师最近写了两篇科普文章“所罗门诺夫:大语言模型的先知” [1] 和“无心插柳:苏联数学家柯尔莫哥洛夫与神经网络的新生” [2] ,让人们重新开始思考计算理论与大模型实践的关系。 先结合OpenAI的两个报告来讨论: 2023年2月OpenAI研究员 Jack Rae在斯坦福的报告“Compression For AGI” [3] 2023年8月Ilya在伯克利的报告”An observation on Generalization” [4] 报告的主要意思可以概括为“ 预测即压缩、压缩即泛化、泛化即智能 ” [5] 。其中Jack Rae的报告表达了 “预测即压缩”,Ilya的报告则表达了 “压缩即泛化、泛化即智能”。 1. 预测即压缩 先给结论: next-token prediction是压缩,预测越准、压缩率越高。 正确理解这个结论有两个关键:(1)模型是压缩器,不是压缩后的表示;(2)这里的压缩指的是上下文压缩,即基于上下文预 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览