文章预览
原文: https://zhuanlan.zhihu.com/p/682434451 大模型计算方式会如何变革,一直是一个持续思考的问题,简单记录一些思路,逻辑并不严谨,不怕打脸,一年后再看。 1 大模型发展的方向是“稀疏” 这里面稀疏指的是,每次执行具体的任务所消耗的资源与整体参数量的比值会越来越低。从以gemm为主到以gemv为主,可以算是一种稀疏(本质上这种稀疏允许了更大的context length的可能性)。MoE毫无疑问也是更稀疏的。从人理解世界的方式而言,稀疏应该是一个比较commen sense的思路。 2 训练和推理的界限会变得模糊 推理的过程中会进行着某种形式的训练 。本质而言,长seq_length带来的巨大的kv cache就是某种意义上的训练,但看起来并不是一种足够高效的方式,所以我感觉这未必会是终极形态。从具体的程序架构而言,在推理的执行模块,对于每层而言,out=op(in0,in1,a
………………………………