主要观点总结
本文介绍了在使用交叉熵损失函数进行自回归语言模型训练时出现的negative diversity ignorance问题,导致多样性降低。针对此问题,ICLR'20的一篇论文提出了使用高斯先验目标来改进CE Loss。该论文通过使用fastText生成的word embedding计算词汇间的相似度,并将其转化为概率分布作为先验分布。新的损失函数结合了CE Loss和先验损失,通过KL Loss计算先验分布和模型输出概率之间的分布差异。该文章还讨论了该方法的不足,并提到了可能的改进方向,例如使用考虑上下文的预训练语言模型作为先验分布生成器。
关键观点总结
关键观点1: Negative Diversity Ignorance问题
在自回归语言模型中使用交叉熵损失函数训练时,会对所有非ground truth token进行同等惩罚,导致多样性降低。
关键观点2: 高斯先验目标的提出
为了改进这一问题,ICLR'20的一篇论文提出了使用高斯先验目标,通过寻找一个合适的先验分布来替代传统的one-hot分布。
关键观点3: 构造高斯先验分布的方法
该论文使用fastText生成的word embedding计算词汇间的相似度,并将距离向量转化为概率分布,再通过softmax函数转化为token的概率分布。
关键观点4: 新的损失函数的设计
结合原有的CE Loss和新的先验损失,通过KL Loss计算两者之间的分布差异,形成新的损失函数。
关键观点5: 方法的不足与改进方向
该论文的方法存在不合理之处,即先验分布不考虑上下文信息。可能的改进方向是使用考虑上下文的预训练语言模型作为先验分布生成器。
免责声明
免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。
原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过
【版权申诉通道】联系我们处理。