伯努利分布

伯努利分布，又名两点分布或0-1分布，介绍伯努利分布前首先需要引入伯努利试验。
伯努利试验是只有两种可能结果的单次随机试验，即对于一个随机变量X而言：
$$
\begin{array}{l}{P(X=1)=p} \ {P(X=0)=1-p}\end{array}
$$
伯努利试验都可以表达为“是或否”的问题。
如果试验E是一个伯努利试验，将E独立重复地进行n次，则称这一串重复的独立试验为n重伯努利试验。
进行一次伯努利试验，成功（X=1）概率为p，失败（X=0）概率为1-p，则称随机变量X服从伯努利分布。
其概率质量函数为：
$$
f(x)=p^{x}(1-p)^{1-x}
$$
伯努利分布的
$$
E X=p, \quad D X=p(1-p)
$$
伯努利分布是一个离散型概率分布，是N=1时二项分布的特殊情况。
伯努利分布的典型例子：抛一次硬币是正面向上吗？刚出生的小孩是个女孩吗？

二项分布

二项分布是n重伯努利试验成功次数X的离散概率分布。
如果试验E是一个n重伯努利试验，每次伯努利试验的成功概率为p，X代表成功的次数，则X的概率分布是二项分布，记为
$$
X \sim B(n, p)
$$
其概率质量函数为：
$$
P{X=k}=C_{n}^{k} p^{k}(1-p)^{n-k}, k=0,1,2, \ldots, n
$$
显然
$$
\sum_{k=0}^{n} P{X=k}=\sum_{k=0}^{n} C_{n}^{k} p^{k}(1-p)^{n-k}=[p+(1-p)]^{n}=1
$$
伯努利分布是二项分布在n=1时的特例。
二项分布名称的由来，是由于其概率质量函数中使用了二项系数，该系数是二项式定理中的系数，二项式定理由牛顿提出：
$$
(x+y)^{n}=C_{n}^{k} x^{k} y^{n-k}
$$
二项分布的典型例子是扔硬币，硬币正面朝上概率为p, 重复扔n次硬币，k次为正面的概率即为一个二项分布概率。

多项分布

多项式分布是二项式分布的推广。二项式做n次伯努利实验，规定了每次试验的结果只有两个。
如果现在还是做n次试验，只不过每次试验的结果可以有多m个，且m个结果发生的概率互斥且和为1，则发生其中一个结果X次的概率就是多项分布。
扔骰子是典型的多项式分布。扔骰子，不同于扔硬币，骰子有6个面对应6个不同的点数，这样单次每个点数朝上的概率都是1/6（对应p1~p6，它们的值不一定都是1/6，只要和为1且互斥即可，比如一个形状不规则的骰子）,重复扔n次，如果问有k次都是点数6朝上的概率就是：
$$
P{X=k}=C_{n}^{k} p_{6}^{k}\left(1-p_{6}\right)^{n-k}, k=0,1,2, \ldots, n
$$
多项式分布的概率质量函数为：
$$
P(X_{1}=k_{1}, X_{2}=k_{2},\cdots, X_{n}=k_{n})=\frac{n!}{((k_{1} !)(k_{2} !) \cdots(K_{n} !))} \prod_{i=1}^{n}(P_{i}^{k_{i}})
$$
$$
where\sum_{i=0}^{n} k_{i}=n
$$
如：
假设萤火虫对食物的喜欢次序为：花粉，蚜虫，面团。假设20%的萤火虫喜欢花粉，35%的萤火虫喜欢蚜虫，45%的萤火虫喜欢面团。我们对30只萤火虫做实验，发现8只喜欢花粉，10只喜欢蚜虫，12只喜欢面团，则这件事的概率为
$$
P\left(N_{1}=8, N_{2}=10, N_{3}=12\right)=\frac{30 !}{8 ! 10 ! 12 !} 0.2^{8} 0.35^{10} 0.45^{12}
$$

贝塔分布

β分布可以看作一个概率的概率分布，当你不知道一个东西的具体概率是多少时，它可以给出了所有概率出现的可能性大小。
举例：
棒球运动中有一个指标就是棒球击球率，即用一个运动员击中的球数除以击球的总数，我们一般认为0.266是正常水平的击球率，而如果击球率高达0.3就被认为是非常优秀的。
现在有一个棒球运动员，我们希望能够预测他在这一赛季中的棒球击球率是多少。你可能就会直接计算棒球击球率，用击中的数除以击球数，但是如果这个棒球运动员只打了一次，而且还命中了，那么他就击球率就是100%了，这显然是不合理的，我们也不会这么预测。因为我们都有一个先验期望。根据历史情况，我们认为一个运动员大概的击球率应当是在0.21到0.35之间。
对于上面这个问题，我们可以用一个二项分布表示（一系列成功或失败），一个最好的方法来表示这些经验（在统计中称为先验信息）就是用β分布，这表示在我们没有看到这个运动员打球之前，我们就有了一个大概的范围。β分布的定义域是（0,1）这就跟概率的范围是一样的。
接下来我们将这些先验信息转换为β分布的参数，我们知道一个击球率应该是平均0.27左右，而他的范围是0.21到0.35，那么根据这个信息，我们可以取:
$$
a=81, \beta=219
$$
之所以取α=81，β=219是因为beta分布的均值是
$$
\frac{\alpha}{\alpha+\beta}=\frac{81}{81+219}=0.27
$$
β分布为：
$$
\beta(81,219)
$$
我们可以据此画出概率分布图，图上的x轴就表示各个击球率的取值，x对应的y值就是这个击球率所对应的概率。也就是说β分布可以看作一个概率的概率分布。这个分布主要落在(0.2,0.35)间，这是从经验中得出的合理的范围。
现在我们考虑一个运动员新打了一次球，得到一个新数据“一击一中”。这时候我们就可以用这个数据更新我们的分布，让上图的曲线做一些移动去适应我们的新信息。
β分布在数学上与二项分布是共轭先验的。所谓共轭先验就是先验分布是β分布，而后验分布同样是β分布。
于是β分布变为：
$$
\beta\left(\alpha_{0}+\text { hits }, \beta_{0}+\text { misses }\right)
$$
其中α0和β0是一开始的参数，对于上面的例子，是81和219。
现在有了新数据一击一中，于是hits=1，misses=0。
如果我们得到了更多的数据，假设一共打了300次，其中击中了100次，200次没击中，那么这一新分布就是：
$$
\beta(81+100,219+200)
$$
这时画出新的概率分布可以发现曲线变得更加尖，并且平移到了一个右边的位置，表示比平均水平要高。

根据这个新的β分布，我们可以得出他的数学期望为:
$$
\frac{\alpha}{\alpha+\beta}=\frac{82+100}{82+100+219+200}=0.303
$$
这一结果要比直接估计要小
$$
\frac{100}{100+200}=0.333
$$
这是因为我们加入了先验信息:这个运动员在击球之前他已经成功了81次，失败了219次。
对于一个我们不知道概率是什么，而又有一些合理的猜测时，β分布能很好的作为一个表示概率的概率分布。
二项分布的似然函数为：
$$
P(\text { data } | \theta) \propto \theta^{z}(1-\theta)^{N-z}
$$
$$
z=\sum_{i=1}^{N} X_{i}
$$
β分布的概率密度函数为：
$$
(a, b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a, b)} \propto \theta^{a-1}(1-\theta)^{b-1}
$$
在β分布中，B函数是一个标准化函数，它只是为了使得这个分布的概率密度积分等于1才加上的。
贝叶斯估计：
我们做贝叶斯估计的目的就是要在给定数据的情况下求出θ的值，所以我们的目的是求解如下后验概率：
$$
P(\theta | d a t a)=\frac{P(\text { data } | \theta) P(\theta)}{P(\text { data })} \propto P(\text { data } | \theta) P(\theta)
$$
因为P（data）与我们所需要估计的θ是独立的，因此我们可以不考虑它。我们称P（data|θ）为似然函数，P（θ）为先验分布。

β分布与二项分布的共轭先验性质：

我们将β分布代进贝叶斯估计中的P（θ）中，将二项分布的似然函数代入P（data|θ）中，可以得到：
$$
P(\theta | \text { data }) \propto \theta^{z}(1-\theta)^{N-z} \theta^{a-1}(1-\theta)^{b-1}
$$
$$
\propto \theta^{a+z-1}(1-\theta)^{b+N-z-1}
$$
假设
$$
a^{\prime}=a+z
$$
$$
b^{\prime}=b+N-z
$$
我们发现这个贝叶斯估计服从
$$
\left(a^{\prime}, b^{\prime}\right)
$$
分布，我们只要用B函数将它标准化就得到我们的后验概率：
$$
P(\theta | d a t a)=\frac{\theta^{a^{\prime}-1}(1-\theta)^{b^{\prime}-1}}{B\left(a^{\prime}, b^{\prime}\right)}
$$

狄利克雷分布

Dirichlet分布可以看做是分布之上的分布。
在伯努利分布里，参数μ就是抛硬币取某一面的概率，因为伯努利分布的状态空间只有{0,1}。但是在多项分布里，因为状态空间有K个取值，因此μ变成了向量。
多项分布的likelihood函数形式是:
$$
\prod \mu_{x}^{m_{i}}
$$
因此狄利克雷分布的函数形式如下：
$$
p(\mu | \alpha) \propto \prod_{k=1}^{K} \mu_{k}^{\alpha_{k-1}}
$$
$$
\sum_{k} \mu_{k}=1, \vec{\alpha}=\left(\alpha_{1}, \ldots, \alpha_{k}\right)
$$
是迪利特雷参数，把上式归一化为真正的迪利特雷分布为：
$$
\operatorname{Dir}(\mu | \alpha)=\frac{\Gamma\left(\alpha_{0}\right)}{\Gamma\left(\alpha_{1}\right) \ldots \Gamma\left(\alpha_{k}\right)} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1}
$$
$$
a_{0}=\sum_{k=1}^{K} \alpha_{k}
$$
这个函数和贝塔分布有点像，跟多项式分布也有点像。就像β分布那样，狄利克雷分布就是它所对应的后验多项分布的参数μ的分布，只不过μ是一个向量。
举例：
假设我们有一个骰子，其有六面，分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验，得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次，如果用每一面出现的次数与试验总数的比值估计这个面出现的概率，则我们得到六面出现的概率，分别为{0.2,0.2,0.2,0.2,0.1,0.1}。现在，我们还不满足，我们想要做10000次试验，每次试验中我们都投掷骰子10000次。我们想知道，骰子六面出现概率为{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少（说不定下次试验统计得到的概率为{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}这样了）。这样我们就在思考骰子六面出现概率分布这样的分布之上的分布。而这样一个分布就是Dirichlet分布。

高斯分布

其实就是正态分布，又叫高斯分布。
若随机变量X服从一个数学期望为μ、方差为σ2的正态分布，则其概率密度函数为：
$$
f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}
$$
正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ=0，σ2=1时的正态分布是标准正态分布。

赏