本文要是针对现代数据分析方法中比较经典的问题进行了总结
极大似然估计(MLE)
(1)简述极大似然(估计)的思想?
(2)极大似然估计一定存在吗?如果不一定存在请举出反例?
(3)若极大似然估计存在的话一定唯一吗?如果不一定唯一, 请举出反例?
答:
(1) 给定一组样本$x_1, x_2, …, x_n$, 他们对应的联合密度函数就是似然函数, 极大似然的思想就是通过使似然函数达到最大,也就是当前概率达到最大来求解相应的参数估计.
(2) 极大似然估计不一定存在.
比如:当概率密度函数标准正态分布和一般正态分布的高斯混合分布时,即
那么上式对应的极大似然估计不存在, 其中$\mu$和$\sigma^2$分别为一般正态分布的期望和方差. 我们假设$x_1, x_2, …, x_n$是$i.i.d$的,那么对应的似然函数为
令$\widehat{\mu}=x_1$, $\widehat{\sigma}^2\rightarrow+\infty$, 那么
当$i=2,3,…,n$时, 若$x_i = \widehat{\mu}$, 那么
若$x_i\neq\widehat{\mu}$, 那么
综上所述$L(x_1,x_2,…,x_n;\mu,\sigma^2)\rightarrow\infty$, 因此该似然函数的极大似然估计不存在.
(3) 极大似然估计不一定唯一
比如: 有一组独立同分布于$\mathrm{U}(\theta,\theta+1)$的样本$x_1, x_2, …, x_n$,设他们的次序统计量是
对应的似然函数为
为了使得上述似然函数达到最大, 那么$\theta$需要满足
因此$\theta$的极大似然估计$\widehat\theta$不唯一.
Inverse CDF Method
(1) 请叙述Inverse CDF Method定理以及证明过程
(2) 用逆变化法生成指数分布的随机数
答:
(1) Inverse CDF Method定理:对任意的连续分布函数(这里不要求分布函数严格递增), 如果随机变量$U\sim\mathrm{U}(0,1)$, 那么$X=F^{-1}(U)$的分布函数为$F$
证明:
补充:函数存在反函数的充要条件是函数的定义域与值域是一一映射,所以严格单调递增函数会保证反函数一定存在,但是如果不要求严格递增也是可以的,只不过需要针对不增的区间去定义$F(x)$和$x$之间的映射关系来保证反函数的映射关系.
(2) 用逆变换法生成指数分布的随机数
因为指数分布$\mathrm{Exp}(\lambda)$的分布函数为
其中$x\geq 0$. 我们设$F(x)=u$, 那么有
生成指数分布随机数的步骤如下:
step1. 产生$\mathrm{U}(0,1)$上的随机数$u$;
step2. 根据$x=-\frac{ln(1-u)}{\lambda}$得到指数分布的随机数$x$.
方差缩减
(1) 简述对偶变量法和控制变量法和控制变量法
(2) 选择一种方差缩减方法去缩减$\theta=e^{u}$的方差
答:
(1) Antithetic variates(对偶变量法)
假设$x_1, x_2$为来自同一分布的两个样本, 我们要用$\frac{x_1+x_2}{2}$来估计$E(x)$.
a. 当$x_1, x_2$相互独立时, $\mathrm{var}(\frac{x_1+x_2}{2})=\frac{x_1}{2}$;
b. 当$x_1, x_2$不独立时, $\mathrm{var}(\frac{x_1+x_2}{2})=\frac{x_1}{2}+\frac{\mathrm{cov}(x_1, x_2)}{2}$.
如果$\mathrm{cov}(x_1, x_2)<0$, 那么就达到了缩减方差的目的.
推论:$h(u_1, u_2, …, u_n)$是关于每个自变量的单调函数, 则对$n$个独立的$\mathrm{U}(0,1)$上的随机数$u_1, u_2, …, u_n$有
设$x=h(u_1, u_2, …, u_n)$, 其中$h(\cdot)$为每个分量的单调函数, $u_1, u_2, …, u_n$是服从$\mathrm{U}(0,1)$的相互独立的随机数, 那么根据推论可以得到$x_1 = h(u_1, u_2, …, u_n)$和$x_2 = h(1- u_1, 1- u_2, …, 1- u_n)$负相关, 即$\mathrm{cov}(x_1, x_2)<0$, 这样就达到了方差缩减的目的.
(2) Control variates
思想: 找一个与$X$有相关性的随机变量$Y$, 并且$Y$的期望已知, 我们将其设为$\mathrm{E}(Y)=\mu$, 那么我们可以构造一个新的随机变量$Z=X+C(Y-\mu)$, 然后用$z_i=x_i+c(y_i-\mu)$的样本均值来估计参数$\theta$, 其中$\theta=E(x_i)$, $i=1,2,…,n$.
因为$E(\overline{z})=\frac{1}{n}\sum_{i=1}^nE(z_i)=E(x_i)=\theta$, 所以可以得到$\overline{z}$也是$\theta$的无偏估计
接下来证明通过上述构造方式得到的随机变量可以缩减方差
证明:我们的目标是要证明$\mathrm{var}(\overline{x})<\mathrm{var}(\overline{z})$
为了使得上式关于$c$达到最小, 对应的最小值点为
对应的最小值为
所以有
因为X和Y相关, 所以$\mathrm{cov}(x_1, y_1)>0$, 因此$\mathrm{var}(\overline{z})<\mathrm{var}(\overline{x})$, 即达到了缩减方差的目的
(3)若$\theta=\mathrm{E}(e^{U})=\int_0^1e^x\mathrm{d}x$, 其中$U\sim\mathrm{U}(0,1)$. 已知$\mathrm{cov}(e^U, U)=0.14086$, $\mathrm{var}(e^U)=0.2420$, $\mathrm{var}(Y)=\frac{1}{12}$
解:设$X=e^U$, 令$Y=U$, 那么$E(Y)=\frac{0+1}{2}=\frac{1}{2}$, 令新的随机变量为$Z=e^U+c(u-\frac{1}{2})$. 那么$\mathrm{var}(z)=\mathrm{var}(e^{U}+c(U-\frac{1}{2}))=0.0039$. 根据之前的控制变量法的原理简述可以得到$\overline{z}$是$\theta$的无偏估计, 并且也可以得到$\mathrm{var}(\overline{z})$的结果, 在此不再赘述.
(3) 例题:
解:令$u_1, u_2, …, u_n, u_1^{‘},u_2^{‘},…, u_n^{‘}$独立同分布与$\mathrm{U}[0,1]$, 那么
作为$\theta$的对偶变量法的估计, 所以该估计显然是无偏估计.
其中针对第二项我们无法直接得到结果,所以我们需要对其进行估计
对于上式的估计为
ps:
因为$u_1+u_1’\sim\mathrm{U}[0,2]$, 所以$-(u_1+u_1’)\sim\mathrm{U}[-2,0]$, 所以$2-(u_1+u_1’)\sim\mathrm{U}[0,2]$
非参数估计
(1) 用核光滑法如果估计$m(x)$/核光滑法的原理/核光滑法的思想?
答:核光滑法思想:已知$Y=m(x)+\varepsilon$, $(x_i, y_i)$, $i=1,2,…,n$, 选定$R$上的函数$K(\cdot)$和整的常数列$h=h_n$(ps:一般取值就是某个整数), 记$K_h(\cdot)=\frac{1}{h}K(\frac{\cdot}{h})$. 定义
其中
相当于权重, 称$W_{ni}^K(x)$为$m(x)$的$N-W$估或核估计.
补充:核光滑法就是构造$m(x)$的估计量的方法, 其中$m(x)$叫光滑函数, 它的定义是
所以$m(x)$也叫条件期望函数.
(2) 在均匀核下,给定 $(x_i, y_i)$, $i=1,2,…,n$, 估计$m(x)$?
均匀核:$K(u)=\frac{1}{2}\mathrm{I}(|u|\leq 1)$
$m(x)$的核估计是
可以看出上式是等权求和, 因为针对给定的$x$, 上述示性函数都会变成1和0,所以权重都是相同的(不考虑权重为0的情况)
(2) 在抛物线核下,给定 $(x_i, y_i)$, $i=1,2,…,n$, 估计$m(x)$?
抛物线核:$K(u)=\frac{3}{4}(1-u^2)I(|u|\leq 1)$
那么
并且
因此$m(x)$的核估计是
看出上式是不等权求和, 距离x越近, 权重越大, 距离x越远, 权重越小,
EM算法
(1) EM算法的思想
已知$X_{obs}=x_{obs}$, $X_{mis}$对应的条件分布为
那么在完全数据的对数似然函数
中, 我们将$X_{obs}=x_{obs}$看成已知, 关于未知部分$X{mis}$, 求期望得到关于$\theta$的函数$Q\{t}(\theta)$, 然后再求$Q_t(\theta)$的最大值点作为下一个$\theta^{(t+1)}$, 其中$X_{obs}$为观测样本, $X_{mis}$为未观测样本, $theta^{(t)}$为第$t$轮迭代得到的$theta$的估计.
(2) E步和M步分别指什么?
E步(期望步): 计算完全数据的对数似然函数的期望
其中期望是针对$X{mis}$, 求期望的时候, $X\{mis}$对应的条件密度为$f(x_{mis}|x_{obs}, \theta^{(t)})$
M步(最大化步): 求$Q_t(\theta)$的最大值点$\theta^{(t+1)}$, 然后迭代进入下一步.
(3) 例题: 总体的分布是$N(0,1)$, 观测样本$X_1, X_2, …, X_n$, 相应的观测值为$x_1, x_2, …, x_n$, 另外有为观测的样本$Z_1, Z_2, …, Z_m$, 仅知道$z_j>a$, $j=1,2,…,m$, 假设样本之间相互独立.
解: 首先完全数据的联合密度为
已知$z_j>a$, 即该部分也算是观测到的一部分,并且有
那么观测数据的似然函数(即观测到的情况所对应的联合概率)为
所以
迭代时, 第$t$步对应的$\theta$为$\theta^{(t)}$, 因此根据EM算法可以得到
E步:
其中$x=(x_1, x_2, … , x_n)$, $z_j$之间相互独立, 且有相同的条件密度
$j=1,2,…,m$, $z_j>a$. 因此
M步: 求$Q_t(\theta)$的最大值
其中用到了
以及
那么有
可得
(4)例题:
$Y_1, Y_2,…, Y_n$独立同分布于$\mathrm{exp}(\theta)$, $y_1=5$是观测到的, $y_2$的值是缺失的.
那么完全数据的对数似然函数为
E步(期望步):
M步(最大化步):
当$\theta^{(t+1)}=\theta^{(t)} $时, 迭代停止, 即
求解完毕.