文章预览
本系列将持续整理一些LLM中关键的、细节的、值得关注的内容,持续更新~ 如有错漏,欢迎指正~ 1.激活函数GeLU是怎么设计的,有什么优点? GeLU函数在2016年在论文《Gaussian Error Linear Units (GELUs)》中提出。 之前比较常用的激活函数ReLU具有计算快,有激活值的时候不容易出现梯度消失等优点,但是ReLU是个分段函数,存在不可导的断点,可能会对模型效果有所影响。此外,ReLU是确定性的激活函数,一般会加入随机正则项(如dropout,随机将部分输出置0)以提高模型的泛化能力。 而GeLU被设计为一种自带随机正则属性的激活函数,即输入是否置0,取决于当前的输入和其他输入的对比: GeLU(x) = x P(X≤x)=x Φ(x) 其中Φ(x)是标准正态分布的累积分布函数。GeLU精确值的计算比较复杂,因此论文给出了近似解,图像如图。 GeLU相比ReLU更为光滑,在处理负数的时候也
………………………………