0%

现代数据分析方法

本文要是针对现代数据分析方法中比较经典的问题进行了总结

极大似然估计(MLE)

(1)简述极大似然(估计)的思想?
(2)极大似然估计一定存在吗?如果不一定存在请举出反例?
(3)若极大似然估计存在的话一定唯一吗?如果不一定唯一, 请举出反例?
答:

(1) 给定一组样本$x_1, x_2, …, x_n$, 他们对应的联合密度函数就是似然函数, 极大似然的思想就是通过使似然函数达到最大,也就是当前概率达到最大来求解相应的参数估计.

(2) 极大似然估计不一定存在.
比如:当概率密度函数标准正态分布和一般正态分布的高斯混合分布时,即

那么上式对应的极大似然估计不存在, 其中$\mu$和$\sigma^2$分别为一般正态分布的期望和方差. 我们假设$x_1, x_2, …, x_n$是$i.i.d$的,那么对应的似然函数为

令$\widehat{\mu}=x_1$, $\widehat{\sigma}^2\rightarrow+\infty$, 那么

当$i=2,3,…,n$时, 若$x_i = \widehat{\mu}$, 那么

若$x_i\neq\widehat{\mu}$, 那么

综上所述$L(x_1,x_2,…,x_n;\mu,\sigma^2)\rightarrow\infty$, 因此该似然函数的极大似然估计不存在.

(3) 极大似然估计不一定唯一

比如: 有一组独立同分布于$\mathrm{U}(\theta,\theta+1)$的样本$x_1, x_2, …, x_n$,设他们的次序统计量是

对应的似然函数为

为了使得上述似然函数达到最大, 那么$\theta$需要满足

因此$\theta$的极大似然估计$\widehat\theta$不唯一.

Inverse CDF Method

(1) 请叙述Inverse CDF Method定理以及证明过程

(2) 用逆变化法生成指数分布的随机数

答:

(1) Inverse CDF Method定理:对任意的连续分布函数(这里不要求分布函数严格递增), 如果随机变量$U\sim\mathrm{U}(0,1)$, 那么$X=F^{-1}(U)$的分布函数为$F$

证明:

补充:函数存在反函数的充要条件是函数的定义域与值域是一一映射,所以严格单调递增函数会保证反函数一定存在,但是如果不要求严格递增也是可以的,只不过需要针对不增的区间去定义$F(x)$和$x$之间的映射关系来保证反函数的映射关系.

(2) 用逆变换法生成指数分布的随机数

因为指数分布$\mathrm{Exp}(\lambda)$的分布函数为

其中$x\geq 0$. 我们设$F(x)=u$, 那么有

生成指数分布随机数的步骤如下:

step1. 产生$\mathrm{U}(0,1)$上的随机数$u$;

step2. 根据$x=-\frac{ln(1-u)}{\lambda}$得到指数分布的随机数$x$.

方差缩减

(1) 简述对偶变量法和控制变量法和控制变量法

(2) 选择一种方差缩减方法去缩减$\theta=e^{u}$的方差

答:

(1) Antithetic variates(对偶变量法)

假设$x_1, x_2$为来自同一分布的两个样本, 我们要用$\frac{x_1+x_2}{2}$来估计$E(x)$.

a. 当$x_1, x_2$相互独立时, $\mathrm{var}(\frac{x_1+x_2}{2})=\frac{x_1}{2}$;
b. 当$x_1, x_2$不独立时, $\mathrm{var}(\frac{x_1+x_2}{2})=\frac{x_1}{2}+\frac{\mathrm{cov}(x_1, x_2)}{2}$.

如果$\mathrm{cov}(x_1, x_2)<0$, 那么就达到了缩减方差的目的.

推论:$h(u_1, u_2, …, u_n)$是关于每个自变量的单调函数, 则对$n$个独立的$\mathrm{U}(0,1)$上的随机数$u_1, u_2, …, u_n$有

设$x=h(u_1, u_2, …, u_n)$, 其中$h(\cdot)$为每个分量的单调函数, $u_1, u_2, …, u_n$是服从$\mathrm{U}(0,1)$的相互独立的随机数, 那么根据推论可以得到$x_1 = h(u_1, u_2, …, u_n)$和$x_2 = h(1- u_1, 1- u_2, …, 1- u_n)$负相关, 即$\mathrm{cov}(x_1, x_2)<0$, 这样就达到了方差缩减的目的.

(2) Control variates

思想: 找一个与$X$有相关性的随机变量$Y$, 并且$Y$的期望已知, 我们将其设为$\mathrm{E}(Y)=\mu$, 那么我们可以构造一个新的随机变量$Z=X+C(Y-\mu)$, 然后用$z_i=x_i+c(y_i-\mu)$的样本均值来估计参数$\theta$, 其中$\theta=E(x_i)$, $i=1,2,…,n$.

因为$E(\overline{z})=\frac{1}{n}\sum_{i=1}^nE(z_i)=E(x_i)=\theta$, 所以可以得到$\overline{z}$也是$\theta$的无偏估计

接下来证明通过上述构造方式得到的随机变量可以缩减方差

证明:我们的目标是要证明$\mathrm{var}(\overline{x})<\mathrm{var}(\overline{z})$

为了使得上式关于$c$达到最小, 对应的最小值点为

对应的最小值为

所以有

因为X和Y相关, 所以$\mathrm{cov}(x_1, y_1)>0$, 因此$\mathrm{var}(\overline{z})<\mathrm{var}(\overline{x})$, 即达到了缩减方差的目的

(3)若$\theta=\mathrm{E}(e^{U})=\int_0^1e^x\mathrm{d}x$, 其中$U\sim\mathrm{U}(0,1)$. 已知$\mathrm{cov}(e^U, U)=0.14086$, $\mathrm{var}(e^U)=0.2420$, $\mathrm{var}(Y)=\frac{1}{12}$

解:设$X=e^U$, 令$Y=U$, 那么$E(Y)=\frac{0+1}{2}=\frac{1}{2}$, 令新的随机变量为$Z=e^U+c(u-\frac{1}{2})$. 那么$\mathrm{var}(z)=\mathrm{var}(e^{U}+c(U-\frac{1}{2}))=0.0039$. 根据之前的控制变量法的原理简述可以得到$\overline{z}$是$\theta$的无偏估计, 并且也可以得到$\mathrm{var}(\overline{z})$的结果, 在此不再赘述.

(3) 例题:

解:令$u_1, u_2, …, u_n, u_1^{‘},u_2^{‘},…, u_n^{‘}$独立同分布与$\mathrm{U}[0,1]$, 那么

作为$\theta$的对偶变量法的估计, 所以该估计显然是无偏估计.

其中针对第二项我们无法直接得到结果,所以我们需要对其进行估计

对于上式的估计为

ps:

因为$u_1+u_1’\sim\mathrm{U}[0,2]$, 所以$-(u_1+u_1’)\sim\mathrm{U}[-2,0]$, 所以$2-(u_1+u_1’)\sim\mathrm{U}[0,2]$

非参数估计

(1) 用核光滑法如果估计$m(x)$/核光滑法的原理/核光滑法的思想?

答:核光滑法思想:已知$Y=m(x)+\varepsilon$, $(x_i, y_i)$, $i=1,2,…,n$, 选定$R$上的函数$K(\cdot)$和整的常数列$h=h_n$(ps:一般取值就是某个整数), 记$K_h(\cdot)=\frac{1}{h}K(\frac{\cdot}{h})$. 定义

其中

相当于权重, 称$W_{ni}^K(x)$为$m(x)$的$N-W$估或核估计.

补充:核光滑法就是构造$m(x)$的估计量的方法, 其中$m(x)$叫光滑函数, 它的定义是

所以$m(x)$也叫条件期望函数.

(2) 在均匀核下,给定 $(x_i, y_i)$, $i=1,2,…,n$, 估计$m(x)$?

均匀核:$K(u)=\frac{1}{2}\mathrm{I}(|u|\leq 1)$

$m(x)$的核估计是

可以看出上式是等权求和, 因为针对给定的$x$, 上述示性函数都会变成1和0,所以权重都是相同的(不考虑权重为0的情况)

(2) 在抛物线核下,给定 $(x_i, y_i)$, $i=1,2,…,n$, 估计$m(x)$?

抛物线核:$K(u)=\frac{3}{4}(1-u^2)I(|u|\leq 1)$

那么

并且

因此$m(x)$的核估计是

看出上式是不等权求和, 距离x越近, 权重越大, 距离x越远, 权重越小,

EM算法

(1) EM算法的思想

已知$X_{obs}=x_{obs}$, $X_{mis}$对应的条件分布为

那么在完全数据的对数似然函数

中, 我们将$X_{obs}=x_{obs}$看成已知, 关于未知部分$X{mis}$, 求期望得到关于$\theta$的函数$Q\{t}(\theta)$, 然后再求$Q_t(\theta)$的最大值点作为下一个$\theta^{(t+1)}$, 其中$X_{obs}$为观测样本, $X_{mis}$为未观测样本, $theta^{(t)}$为第$t$轮迭代得到的$theta$的估计.

(2) E步和M步分别指什么?

E步(期望步): 计算完全数据的对数似然函数的期望

其中期望是针对$X{mis}$, 求期望的时候, $X\{mis}$对应的条件密度为$f(x_{mis}|x_{obs}, \theta^{(t)})$

M步(最大化步): 求$Q_t(\theta)$的最大值点$\theta^{(t+1)}$, 然后迭代进入下一步.

(3) 例题: 总体的分布是$N(0,1)$, 观测样本$X_1, X_2, …, X_n$, 相应的观测值为$x_1, x_2, …, x_n$, 另外有为观测的样本$Z_1, Z_2, …, Z_m$, 仅知道$z_j>a$, $j=1,2,…,m$, 假设样本之间相互独立.

解: 首先完全数据的联合密度为

已知$z_j>a$, 即该部分也算是观测到的一部分,并且有

那么观测数据的似然函数(即观测到的情况所对应的联合概率)为

所以

迭代时, 第$t$步对应的$\theta$为$\theta^{(t)}$, 因此根据EM算法可以得到

E步:

其中$x=(x_1, x_2, … , x_n)$, $z_j$之间相互独立, 且有相同的条件密度

$j=1,2,…,m$, $z_j>a$. 因此

M步: 求$Q_t(\theta)$的最大值

其中用到了

以及

那么有

可得

(4)例题:

$Y_1, Y_2,…, Y_n$独立同分布于$\mathrm{exp}(\theta)$, $y_1=5$是观测到的, $y_2$的值是缺失的.

那么完全数据的对数似然函数为

E步(期望步):

M步(最大化步):

当$\theta^{(t+1)}=\theta^{(t)} $时, 迭代停止, 即

求解完毕.