文章预览
前言 前文 ( Language Modeling 中的negative diversity ignorance问题 )中谈到使用 交叉熵损失函数(CE Loss) 来进行自回归语言模型的训练时,会出现所谓的 negative diversity ignorance 问题,即训练过程对所有的非 ground truth token 都进行同等的惩罚,导致多样性的降低。对此问题,ICLR'20 的一个工作 《Data-dependent gaussian prior objective for language generation》 提出了一个针对语言生成任务的高斯先验目标,来改进 CE Loss。 动机 改进的动机很简单,在计算 CE Loss 的时候,ground truth token 那个位置的 label 为1,其余部分均为0,是一个 one-hot 分布,而理想情况下应该有一个概率分布,来描述不同 token 在这个位置的合适程度。既然这样,一个 最直接的方法,就是找一个先验分布,来替代 one-hot 分布 。 构造高斯先验分布 如何去找一个合适的先验分布呢?其实 很自然地,我们联
………………………………