专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
今天看啥  ›  专栏  ›  AINLP

大模型算法题(8)

AINLP  · 公众号  ·  · 2024-07-19 21:19
    

文章预览

本系列将持续整理一些LLM中关键的、细节的、值得关注的内容,持续更新~ 如有错漏,欢迎指正~ 1.激活函数GeLU是怎么设计的,有什么优点? GeLU函数在2016年在论文《Gaussian Error Linear Units (GELUs)》中提出。 之前比较常用的激活函数ReLU具有计算快,有激活值的时候不容易出现梯度消失等优点,但是ReLU是个分段函数,存在不可导的断点,可能会对模型效果有所影响。此外,ReLU是确定性的激活函数,一般会加入随机正则项(如dropout,随机将部分输出置0)以提高模型的泛化能力。 而GeLU被设计为一种自带随机正则属性的激活函数,即输入是否置0,取决于当前的输入和其他输入的对比: GeLU(x) = x P(X≤x)=x Φ(x) 其中Φ(x)是标准正态分布的累积分布函数。GeLU精确值的计算比较复杂,因此论文给出了近似解,图像如图。 GeLU相比ReLU更为光滑,在处理负数的时候也 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览