专栏名称: SimpleAI and ...

简单，有趣，有意义的AI研究。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

相关文章推荐

中国质量新闻网 · 假耐克窝点被端现场：刺鼻胶水味弥漫 ... · 21 小时前

天津广播 · 刚刚 | 抖音回应“女孩高考288分全家欢呼”！ · 昨天

消费者报道 · 新规来了，手里的充电宝还能上飞机吗？这份攻略 ... · 昨天

上海人力资源 · 市人社局启动人社部“专业技术人才管理服务改革 ... · 昨天

中研普华集团 · 【附产业图谱】全球光刻机被ASML垄断，中国 ... · 2 天前

今天看啥 › 专栏 › SimpleAI and ...

使用先验分布来改进语言模型的交叉熵损失

SimpleAI and ... · 公众号 · 科技自媒体 · 2024-08-12 22:31

主要观点总结

本文介绍了在使用交叉熵损失函数进行自回归语言模型训练时出现的negative diversity ignorance问题，导致多样性降低。针对此问题，ICLR'20的一篇论文提出了使用高斯先验目标来改进CE Loss。该论文通过使用fastText生成的word embedding计算词汇间的相似度，并将其转化为概率分布作为先验分布。新的损失函数结合了CE Loss和先验损失，通过KL Loss计算先验分布和模型输出概率之间的分布差异。该文章还讨论了该方法的不足，并提到了可能的改进方向，例如使用考虑上下文的预训练语言模型作为先验分布生成器。

关键观点总结

关键观点1: Negative Diversity Ignorance问题

在自回归语言模型中使用交叉熵损失函数训练时，会对所有非ground truth token进行同等惩罚，导致多样性降低。

关键观点2: 高斯先验目标的提出

为了改进这一问题，ICLR'20的一篇论文提出了使用高斯先验目标，通过寻找一个合适的先验分布来替代传统的one-hot分布。

关键观点3: 构造高斯先验分布的方法

该论文使用fastText生成的word embedding计算词汇间的相似度，并将距离向量转化为概率分布，再通过softmax函数转化为token的概率分布。

关键观点4: 新的损失函数的设计

结合原有的CE Loss和新的先验损失，通过KL Loss计算两者之间的分布差异，形成新的损失函数。

关键观点5: 方法的不足与改进方向

该论文的方法存在不合理之处，即先验分布不考虑上下文信息。可能的改进方向是使用考虑上下文的预训练语言模型作为先验分布生成器。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

中国质量新闻网 · 假耐克窝点被端现场：刺鼻胶水味弥漫劣质原料与废料狼藉工人正埋头赶工……

21 小时前

天津广播 · 刚刚 | 抖音回应“女孩高考288分全家欢呼”！

昨天

消费者报道 · 新规来了，手里的充电宝还能上飞机吗？这份攻略助你“满电”出行

昨天

上海人力资源 · 市人社局启动人社部“专业技术人才管理服务改革试点” 2025首期“3E”讲坛开讲

昨天

中研普华集团 · 【附产业图谱】全球光刻机被ASML垄断，中国存储芯片产能占全球比重已超10%，“去美供应链”已经准备好了？

2 天前

西安交大一附院榆林医院 · 【门诊服务】西安交通大学第一附属医院榆林医院门诊出诊安排（2024年9月30日—10月6日）

9 月前

天天IC · 第3台天价光刻机，出货！

8 月前

酷玩实验室 · 🤭热搜主打一个答案自寻：

7 月前

杭州日报 · A股早盘：三大指数集体高开

3 月前

新乡日报 · 国家级关节外科专家来新乡！4月19日坐诊+手术，家门口看上海六院名医！

2 月前