主要观点总结
本文介绍了在使用交叉熵损失函数进行自回归语言模型训练时出现的negative diversity ignorance问题,导致多样性降低。针对此问题,ICLR'20的一篇论文提出了使用高斯先验目标来改进CE Loss。该论文通过使用fastText生成的word embedding计算词汇间的相似度,并将其转化为概率分布作为先验分布。新的损失函数结合了CE Loss和先验损失,通过KL Loss计算先验分布和模型输出概率之间的分布差异。该文章还讨论了该方法的不足,并提到了可能的改进方向,例如使用考虑上下文的预训练语言模型作为先验分布生成器。
关键观点总结
关键观点1: Negative Diversity Ignorance问题
在自回归语言模型中使用交叉熵损失函数训练时,会对所有非ground truth token进行同等惩罚,导致多样性降低。
关键观点2: 高斯先验目标的提出
为了改进这一问题,ICLR'20的一篇论文提出了使用高斯先验目标,通过寻找一个合适的先验分布来替代传统的one-hot分布。
关键观点3: 构造高斯先验分布的方法
该论文使用fastText生成的word embedding计算词汇间的相似度,并将距离向量转化为概率分布,再通过softmax函数转化为token的概率分布。
关键观点4: 新的损失函数的设计
结合原有的CE Loss和新的先验损失,通过KL Loss计算两者之间的分布差异,形成新的损失函数。
关键观点5: 方法的不足与改进方向
该论文的方法存在不合理之处,即先验分布不考虑上下文信息。可能的改进方向是使用考虑上下文的预训练语言模型作为先验分布生成器。
文章预览
前言 前文 ( Language Modeling 中的negative diversity ignorance问题 )中谈到使用 交叉熵损失函数(CE Loss) 来进行自回归语言模型的训练时,会出现所谓的 negative diversity ignorance 问题,即训练过程对所有的非 ground truth token 都进行同等的惩罚,导致多样性的降低。对此问题,ICLR'20 的一个工作 《Data-dependent gaussian prior objective for language generation》 提出了一个针对语言生成任务的高斯先验目标,来改进 CE Loss。 动机 改进的动机很简单,在计算 CE Loss 的时候,ground truth token 那个位置的 label 为1,其余部分均为0,是一个 one-hot 分布,而理想情况下应该有一个概率分布,来描述不同 token 在这个位置的合适程度。既然这样,一个 最直接的方法,就是找一个先验分布,来替代 one-hot 分布 。 构造高斯先验分布 如何去找一个合适的先验分布呢?其实 很自然地,我们联
………………………………