专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
今天看啥  ›  专栏  ›  自动驾驶之心

万字长文 | 大模型基础面试知识

自动驾驶之心  · 公众号  ·  · 2024-12-01 00:00
    

文章预览

作者 | lym 编辑 | 自动驾驶之心 原文链接:https://zhuanlan.zhihu.com/p/690474151 点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >> 点击进入→ 自动驾驶之心 『 大语言模型 』 技术交流群 本文只做学术分享,如有侵权,联系删文 注意力的计算公式 MHA GQA MQA MLA 几种位置编码,几种norm,几种ffn 正弦位置编码,可学习位置编码,ROPE(旋转位置编码),都用在过qkv的linear之后,qk矩阵计算之前。 LayerNorm(PreNorm/PostNorm)、GroupNorm、RMSNorm(提升运行效率) RMSNorm计算公式: class RMSNorm(torch.nn.Module):     def __init__(self, dim: int, eps:  float  = 1e-6):         super().__init__()         self.eps = eps         self.weight = nn.Parameter(torch.ones(dim))     def _norm(self, x):          return  x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True)  ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览