通向概率分布之路：盘点Softmax及其替代品

数据派THU · 公众号 · 大数据 · 2024-07-18 17:00

文章预览

本文约7000字，建议阅读 10 分钟在这篇文章中，我们将简单总结一下 Softmax 的相关性质，并盘点和对比一下它的部分替代方案。不论是在基础的分类任务中，还是如今无处不在的注意力机制中，概率分布的构建都是一个关键步骤。具体来说，就是将一个维的任意向量，转换为一个元的离散型概率分布。众所周知，这个问题的标准答案是 Softmax，它是指数归一化的形式，相对来说比较简单直观，同时也伴有很多优良性质，从而成为大部分场景下的“标配”。尽管如此，Softmax 在某些场景下也有一些不如人意之处，比如不够稀疏、无法绝对等于零等，因此很多替代品也应运而生。在这篇文章中，我们将简单总结一下 Softmax 的相关性质，并盘点和对比一下它的部分替代方案。 01 Softmax回顾首先引入一些通用记号：是需要转为概率分布的 n 维向 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

数据派THU · 马斯克的「xAI」计划

22 小时前

数据派THU · 联合Science，面向青年学者，陈天桥推出AI驱动科学研究国际大奖

3 天前

数据派THU · 泊松自助法（Poisson Bootstrap Sampling）：大型数据集上的自助抽样

4 天前

数据派THU · 网络安全国家标准贯标深度行——标准进校园在清华大学成功举办

4 天前

清华大学智能法治研究院 · 青岛地铁两份数据集，一份估值3200万，一份获信6000万

2 周前