讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

AI大模型推理过程和优化技术

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-07-12 03:06
    

文章预览

原文:https://zhuanlan.zhihu.com/p/689773196 一 推理过程 主流的大模型都是基于Transformer架构,其核心是注意力(Attention)机制,简单说就是计算softmax(qk^T)*v 计算softmax(qk^T)*v 推理会分成 prefill 和 decoding 两个阶段。每一个请求发起后产生的推理过程都会先经历一个 Prefill 过程,prefill 过程会计算用户所有的输入,并生成对应的 KV 缓存,再经历若干个 decoding 过程,每一个 decoding 过程服务器都会生成一个字符,并将其放入到 KV 缓存当中,推理出来的预测结果又放入输入中,如此循环往复,直到推理出最终结果。新的请求进来在进行完 prefill 之后会不断迭代进行 decoding,每一个 decoding 阶段结束之后都会将结果当场返回给客户。这样的生成过程称为流式传输。 LLM 推理过程 1.Prefill(输入理解与初始化)阶段 需要计算整个prompt的自注意力。Embedding 曾将用户提问构 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览