今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

对大模型演进方向的思考

吃果冻不吐果冻皮  · 公众号  ·  · 2024-09-17 19:29

文章预览

原文: https://zhuanlan.zhihu.com/p/682434451 大模型计算方式会如何变革,一直是一个持续思考的问题,简单记录一些思路,逻辑并不严谨,不怕打脸,一年后再看。 1 大模型发展的方向是“稀疏” 这里面稀疏指的是,每次执行具体的任务所消耗的资源与整体参数量的比值会越来越低。从以gemm为主到以gemv为主,可以算是一种稀疏(本质上这种稀疏允许了更大的context length的可能性)。MoE毫无疑问也是更稀疏的。从人理解世界的方式而言,稀疏应该是一个比较commen sense的思路。 2 训练和推理的界限会变得模糊 推理的过程中会进行着某种形式的训练 。本质而言,长seq_length带来的巨大的kv cache就是某种意义上的训练,但看起来并不是一种足够高效的方式,所以我感觉这未必会是终极形态。从具体的程序架构而言,在推理的执行模块,对于每层而言,out=op(in0,in1,a ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览