文章预览
大模型的底层是多内层神经网络系统,而神经网络本身的数学假设就有问题,即常常把似然当成了先验。 上述观点在一定程度上 触及了贝叶斯推断和深度学习的关系,在此需要回顾一下贝叶斯推断的基本框架,以及神经网络中常见的“优化”过程。 一、贝叶斯推断和深度学习 1、 贝叶斯推断中的似然与先验 贝叶斯推断的核心思想是通过先验分布(Prior)和似然函数(Likelihood)来得到后验分布(Posterior)。在贝叶斯公式中,后验分布与先验和似然之间有如下关系: 𝑃 ( 𝜃 ∣ 𝑋 ) = 𝑃 ( 𝑋 ∣ 𝜃 ) 𝑃 ( 𝜃 )/ 𝑃 ( 𝑋 ) 似然函数 𝑃 ( 𝑋 ∣ 𝜃 ) 表示在给定参数 𝜃 下,数据 𝑋 出现的可能性。 先验分布 𝑃 ( 𝜃 ) 描述了在观察数据之前,我们对模型参数 𝜃 的信念。 后验分布 𝑃 ( 𝜃 ∣ 𝑋 ) 是在观察数据 𝑋 后,我们对参
………………………………