今天看啥  ›  专栏  ›  李rumor

大模型系统性能优化trick

李rumor  · 公众号  ·  · 2025-04-08 12:00
    

文章预览

最近做了一些大模型系统的设计,让大模型在多个场景进行了应用,当然也发现了不少问题,今天给大家分享一些性能优化的经验。 注意,我这里专门提到了trick,而且是大模型系统,本文不会聊通过模型架构内部的性能优化,包括量化之类的方式来做,更多是通过系统调度、小模型替代之类的方式来做。 实时转非实时 内容聚合定制 大模型降级 大模型工作并行化 后记 实时转非实时 比较直接的大模型使用,基本都是在用户的请求进来后,就直接开始请求大模型来开始跑,这对高并发的场景而言压力可谓是巨大,尤其是一些几十ms的高耗时常见,毕竟一般的大模型正常跑能压缩到秒级就已经非常极限了,此时一个比较基本的思路是,把一些工作可以提前做提前做,而不要等到用户请求的时候再来做。 举一个例子,推荐系统场景,如果等用户去刷新 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览