大模型测速，不服跑个分？glm4-airx遥遥领先

包包算法笔记 · 公众号 · · 2024-07-13 10:30

文章预览

最近业务上需要一个大模型速度要求很高的场景，基本要是是保证效果的前提下，单位时间输出的token数越多越好。这简直是是一个既要又要的问题。大家都知道70B好，但是70B比7B实在是慢太多了。优化模型速度有很多技巧，比如减小参数，量化，或者稀疏化，但天下没有免费的午餐，在砍参数，降精度，提速度的时候，很难确保效果和速度的两全。就在头疼时候，朋友发给我一张图，兴冲冲地跟我说。你的年终奖有着落了，周末请我吃大餐吧！打开他发给我的图，仔细看了下，一堆密密麻麻的曲线。在上面的曲线里，有一个特别突出的黄线，在我还没来得及仔细看的时候，朋友跟我说了五个字：不服跑个分，这个新出的glm4-airx是真的牛。然后他甩给我一个colab链接，打开看是几个python脚本。跟我说，这个脚本你跑一下，哪个大模型最快你就知 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

河北音乐广播 · 高峰到来！河北交警发布重要提醒→

昨天

爱平度 · 咔嚓！晒一晒~~定格快乐送祝福！

昨天

爱平度 · 咔嚓！晒一晒~~定格快乐送祝福！

昨天

河北日报 · 刷屏了！来自河北的他们，登上北京台春晚……

3 天前

天津广播 · 快看 | 大年初一，怎么拜年更合适？

5 天前

撸猫教授 · 网友说家里的猫没一个聪明的，点进去一看...哈哈哈确实不太聪明的样子！

6 月前

黑马程序员 · 互联网“养老型”公司大盘点！建议收藏

5 月前

计算机司令部 · 【民生AI体验官】AI Agent奇点临近

3 月前