专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

Language Modeling 中的negative diversity ignorance问题

AINLP  · 公众号  ·  · 2024-08-01 22:09
    

文章预览

Language Modeling 中的negative diversity ignorance问题 Auto-regressive language modeling 使用 cross-entropy 作为 loss function,会导致一个问题: negative diversity ignorance 这个概念在ICLR'2020的论文 《Data-dependent gaussian prior objective for language generation》 中被首次提出,然而其背后的Cross-entropy loss的缺陷其实已被广泛讨论,除了Text generation之外,在经典的classification中,已经有很多工作致力于改进 CE loss,例如 label smoothing方法、经典的knowledge distillation、Label Enhancement、笔者曾经提出的的 Label Confusion Model 方法 等等。 这里回到text generation的场景,language model pretraining中的 negative diversity ignorance 是啥意思呢?这里进行简单的解释。 简单推导 假设真实的语言概率分布为 代表了给定前文(t之前的tokens)的条件下下个token为 的概率。由于是真实语料,我们观测到了 ,那么这个概率 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览