专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

量子位  · 公众号  · AI  · 2024-06-21 12:56
    

文章预览

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 什么AI应用每秒处理20000个AI推理请求, 达到2024年谷歌搜索流量的1/5 ? 答案是独角兽 Character.ai ,由Transformer作者Noam Shazeer (后面简称沙哥) 创办。 刚刚,沙哥公布了推理优化独门秘诀,迅速引起业界热议。 具体来说Character.ai在整个服务堆栈中实现了如下成绩: 内存高效架构设计: 将KV缓存大小减少20倍以上,而不会降低质量 Attention状态缓存: 95%请求无需重算 直接用in8精度量化训练: 推理零损失还省显存 Character.AI通过以上种种优化,已经把推理成本降低到最初的1/33,如果用市场上最好的商业API来支撑这种级别的流量,成本会比现在高出13.5倍! 众多公布的方法中, 原生 int8训练 是最受关注的。 虽然大多数技巧都来自公开研究,但是正如网友所说,知道如何把它们高效整合在一起实现的团队才是真正的护 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览