一念 LLM 大语言模型推理加速

DataFunTalk · 公众号 · · 2024-09-07 12:00

文章预览

导读本文介绍了一念 LLM 大语言模型推理加速。本次分享的主要内容包括： 1. 大语言模型概要介绍 2. 一念 LLM(KsanaLLM)基本框架 3. 一念 LLM 框架调度 4. 一念 LLM 在 GR 模型的应用 5. 未来规划 6. Q 分享嘉宾｜袁镱博士腾讯专家工程师编辑整理｜陈业利内容校对｜李瑶出品社区｜ DataFun 01 大语言模型概要介绍首先来看一下大语言模型的结构。在 Transformer 结构下的大语言模型推理的过程中，一个 token 或者一个字的生成的过程大致上可以分成两步： Step 1: 根据已有信息，也就是 input 的已知信息，估计下一个 token 的概率分布； Step 2: 根据采样的策略，从概率分布里面挑出最有可能的下一个 token。这个过程有可能是以概率最大的，偏 greedy 的方式来做，要考虑到后期生成的 token 的概率，从总体上去做采样。这是跟传统深度学习推理不太 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博