对大模型演进方向的思考

深度学习与NLP · 公众号 · · 2024-09-18 00:00

文章预览

原文： https://zhuanlan.zhihu.com/p/682434451 大模型计算方式会如何变革，一直是一个持续思考的问题，简单记录一些思路，逻辑并不严谨，不怕打脸，一年后再看。 1 大模型发展的方向是“稀疏” 这里面稀疏指的是，每次执行具体的任务所消耗的资源与整体参数量的比值会越来越低。从以gemm为主到以gemv为主，可以算是一种稀疏（本质上这种稀疏允许了更大的context length的可能性)。MoE毫无疑问也是更稀疏的。从人理解世界的方式而言，稀疏应该是一个比较commen sense的思路。 2 训练和推理的界限会变得模糊推理的过程中会进行着某种形式的训练。本质而言，长seq_length带来的巨大的kv cache就是某种意义上的训练，但看起来并不是一种足够高效的方式，所以我感觉这未必会是终极形态。从具体的程序架构而言，在推理的执行模块，对于每层而言，out=op(in0,in1,a ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博