文章预览
最近业务上需要一个大模型速度要求很高的场景,基本要是是保证效果的前提下,单位时间输出的token数越多越好。 这简直是是一个既要又要的问题。 大家都知道70B好,但是70B比7B实在是慢太多了。 优化模型速度有很多技巧,比如减小参数,量化,或者稀疏化,但天下没有免费的午餐,在砍参数,降精度,提速度的时候,很难确保效果和速度的两全。 就在头疼时候,朋友发给我一张图,兴冲冲地跟我说。你的年终奖有着落了,周末请我吃大餐吧! 打开他发给我的图,仔细看了下,一堆密密麻麻的曲线。 在上面的曲线里,有一个特别突出的黄线,在我还没来得及仔细看的时候,朋友跟我说了五个字:不服跑个分,这个新出的glm4-airx是真的牛。 然后他甩给我一个colab链接,打开看是几个python脚本。跟我说,这个脚本你跑一下,哪个大模型最快你就知
………………………………