专栏名称: SimpleAI
简单,有趣,有意义的AI研究。
目录
相关文章推荐
今天看啥  ›  专栏  ›  SimpleAI

使用先验分布来改进语言模型的交叉熵损失

SimpleAI  · 公众号  ·  · 2024-08-12 22:31

文章预览

前言 前文 ( Language Modeling 中的negative diversity ignorance问题 )中谈到使用 交叉熵损失函数(CE Loss) 来进行自回归语言模型的训练时,会出现所谓的 negative diversity ignorance 问题,即训练过程对所有的非 ground truth token 都进行同等的惩罚,导致多样性的降低。对此问题,ICLR'20 的一个工作 《Data-dependent gaussian prior objective for language generation》 提出了一个针对语言生成任务的高斯先验目标,来改进 CE Loss。 动机 改进的动机很简单,在计算 CE Loss 的时候,ground truth token 那个位置的 label 为1,其余部分均为0,是一个 one-hot 分布,而理想情况下应该有一个概率分布,来描述不同 token 在这个位置的合适程度。既然这样,一个 最直接的方法,就是找一个先验分布,来替代 one-hot 分布 。 构造高斯先验分布 如何去找一个合适的先验分布呢?其实 很自然地,我们联 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章