最大似然估计

  概率$p(\mathrm{x})$是个函数,给它一个输入,就会产生一个输出。如果$\mathrm{x}$服从某个分布,那么这个分布就有一些参数,例如$\mathrm{x}$服从正态(高斯)分布,就有参数$\mu$和$\sigma$。把所有参数记作$\theta$,现有观测结果$x_1, \dots, x_n$,想根据这些观测结果估计出$\theta$,常用的方法是最大似然估计。

贝叶斯统计/方法

  英国学者托马斯·贝叶斯在《论有关机遇问题的求解》中提出一种归纳推理的理论,后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。采用这种方法作统计推断所得的全部结果,构成贝叶斯统计的内容。认为贝叶斯方法是唯一合理的统计推断方法的统计学者,组成数理统计学中的贝叶斯学派

先验分布

  它是总体分布参数$\theta$的一个概率分布。贝叶斯学派的根本观点,是认为在关于$\theta$的任何统计推断问题中,除了使用样本$\mathrm{x}$所提供的信息外,还必须对$\theta$规定一个先验分布,它是在进行推断时不可或缺的一个要素。贝叶斯学派把先验分布解释为在抽样前就有的关于$\theta$的先验信息的概率表述,先验分布不必有客观的依据,它可以部分地或完全地基于主观信念。

后验分布

  根据样本 $\mathrm{x}$ 的分布$p(\mathrm{x})$及$\theta$的先验分布$\pi(\theta)$,用概率论中求条件概率分布的方法,可算出在已知$\mathrm{x} = x$的条件下,$\theta$的条件分布$\pi(\theta \vert x)$。因为这个分布是在抽样以后才得到的,故称为后验分布。贝叶斯学派认为:这个分布综合了样本$\mathrm{x}$及先验分布$\pi(\theta)$所提供的有关的信息。抽样的全部目的,就在于完成由先验分布到后验分布的转换。计算后验分布的公式本质上就是贝叶斯公式

  贝叶斯推断方法的关键在于所作出的任何推断都必须也只须根据后验分布$\pi(\theta \vert \mathrm{x})$,而不能再涉及$\mathrm{x}$的样本分布$p(\theta)$。

概率论中会遇见的一些符号 含义
$P(a)$ 离散变量上的概率分布
$p(a)$ 连续变量(或变量类型未指定时)上的概率分布
$a \sim P$ 具有分布$P$的随机变量$a$
$\mathbb{E}_{\mathrm{x} \sim P}[f(x)]$ or $\mathbb{E}f(x)$ $f(x)$关于$P(\mathrm{x})$的期望
$\mathrm{Var}(f(x))$ $f(x)$在分布$P(\mathrm{x})$下的方差
$\mathrm{Cov}(f(x), g(x))$ $f(x)$和$g(x)$在分布$P(\mathrm{x})$下的协方差
$D_{\mathrm{KL}}(P \Vert Q)$ $P$和$Q$的$\mathrm{KL}$散度
$\mathcal{N}(x; \mu, \Sigma)$ 均值为$\mu$,协方差为$\Sigma$,$x$上的高斯分布
似然函数
  • 概率(probability):$p(x \vert \theta)$,表示在已知参数$\theta$的情况下$\mathrm{x} = x$的概率($x$为变量)。

  • 似然(likelihood):$L(\theta \vert x)$,已知$x$的情况下$\mathrm{x}$的分布函数的参数为$\theta$的概率($\theta$为变量)。

  • $L(\theta \vert x) = p(x \vert \theta)$($\theta$为变量),更严格地,记作$L(\theta \vert x) = p(x ; \theta)$。

  最大似然估计的目的是使似然函数$L(\theta \vert x)$最大,如果$L(\theta_1 \vert x) = p(x ; \theta_1) > p(x ; \theta_2) = L(\theta_2 \vert x)$,说明在得到观测结果$x$时,$\theta_1$比$\theta_2$更有可能是真实的参数。

最大似然估计

  根据最大似然估计的目的,被估计出的参数$\theta^*$应该满足:$L(\theta^* \vert x) = p(x ; \theta^*) \geqslant p(x ; \theta) = L(\theta \vert x), \theta = \theta_1, \theta_2, \dots, \theta_n$,即$\theta^* = \arg\underset{\theta}{\max}p(x ; \theta)$,可将$p(x ; \theta)$求导,令导数等于$0$解得$\theta^*$。