本文要是针对现代数据分析方法中比较经典的问题进行了总结
极大似然估计(MLE)
(1)简述极大似然(估计)的思想?
(2)极大似然估计一定存在吗?如果不一定存在请举出反例?
(3)若极大似然估计存在的话一定唯一吗?如果不一定唯一, 请举出反例?
答:
(1) 给定一组样本x1,x2,…,xn, 他们对应的联合密度函数就是似然函数, 极大似然的思想就是通过使似然函数达到最大,也就是当前概率达到最大来求解相应的参数估计.
(2) 极大似然估计不一定存在.
比如:当概率密度函数标准正态分布和一般正态分布的高斯混合分布时,即
那么上式对应的极大似然估计不存在, 其中μ和σ2分别为一般正态分布的期望和方差. 我们假设x1,x2,…,xn是i.i.d的,那么对应的似然函数为
L(x1,x2,...,xn;μ,σ2)=n∏i=1f(xi;μ,σ2)={121√2πe−x212+121√2πσe−(x1−μ)22σ2}n∏i=2{121√2πe−x2i2+121√2πσe−(xi−μ)22σ2}令ˆμ=x1, ˆσ2→+∞, 那么
121√2πe−x212+121√2πσe−(x1−μ)22σ2=121√2πe−ˆμ22+121√2πσ→+∞当i=2,3,…,n时, 若xi=ˆμ, 那么
121√2πe−x2i2+121√2πσe−(xi−μ)22σ2→+∞,若xi≠ˆμ, 那么
121√2πe−x2i2+121√2πσe−(xi−μ)22σ2→121√2πe−x2i2.综上所述L(x1,x2,…,xn;μ,σ2)→∞, 因此该似然函数的极大似然估计不存在.
(3) 极大似然估计不一定唯一
比如: 有一组独立同分布于U(θ,θ+1)的样本x1,x2,…,xn,设他们的次序统计量是
x(1),x(2),...,x(n),对应的似然函数为
L(x1,x2,...,xn;θ)=I(x(1)≥θ)I(x(n)≤θ+1).为了使得上述似然函数达到最大, 那么θ需要满足
{θ≤x(1)θ≥x(n)−1⇒x(n)−1≤θ≤x(1)因此θ的极大似然估计ˆθ不唯一.
Inverse CDF Method
(1) 请叙述Inverse CDF Method定理以及证明过程
(2) 用逆变化法生成指数分布的随机数
答:
(1) Inverse CDF Method定理:对任意的连续分布函数(这里不要求分布函数严格递增), 如果随机变量U∼U(0,1), 那么X=F−1(U)的分布函数为F
证明:
P(X≤x)=P(F−1(U)≤x)=P(U≤F(x))=F(x).补充:函数存在反函数的充要条件是函数的定义域与值域是一一映射,所以严格单调递增函数会保证反函数一定存在,但是如果不要求严格递增也是可以的,只不过需要针对不增的区间去定义F(x)和x之间的映射关系来保证反函数的映射关系.
(2) 用逆变换法生成指数分布的随机数
因为指数分布Exp(λ)的分布函数为
F(x)=1−e−λx其中x≥0. 我们设F(x)=u, 那么有
F(x)=u⇔1−u=e−λx⇔x=−ln(1−u)λ.生成指数分布随机数的步骤如下:
step1. 产生U(0,1)上的随机数u;
step2. 根据x=−ln(1−u)λ得到指数分布的随机数x.
方差缩减
(1) 简述对偶变量法和控制变量法和控制变量法
(2) 选择一种方差缩减方法去缩减θ=eu的方差
答:
(1) Antithetic variates(对偶变量法)
假设x1,x2为来自同一分布的两个样本, 我们要用x1+x22来估计E(x).
a. 当x1,x2相互独立时, var(x1+x22)=x12;
b. 当x1,x2不独立时, var(x1+x22)=x12+cov(x1,x2)2.
如果cov(x1,x2)<0, 那么就达到了缩减方差的目的.
推论:h(u1,u2,…,un)是关于每个自变量的单调函数, 则对n个独立的U(0,1)上的随机数u1,u2,…,un有
cov{h(u1,u2,...,un),h(1−u1,1−u2,...,1−un)}≤0.设x=h(u1,u2,…,un), 其中h(⋅)为每个分量的单调函数, u1,u2,…,un是服从U(0,1)的相互独立的随机数, 那么根据推论可以得到x1=h(u1,u2,…,un)和x2=h(1−u1,1−u2,…,1−un)负相关, 即cov(x1,x2)<0, 这样就达到了方差缩减的目的.
(2) Control variates
思想: 找一个与X有相关性的随机变量Y, 并且Y的期望已知, 我们将其设为E(Y)=μ, 那么我们可以构造一个新的随机变量Z=X+C(Y−μ), 然后用zi=xi+c(yi−μ)的样本均值来估计参数θ, 其中θ=E(xi), i=1,2,…,n.
因为E(¯z)=1n∑ni=1E(zi)=E(xi)=θ, 所以可以得到¯z也是θ的无偏估计
接下来证明通过上述构造方式得到的随机变量可以缩减方差
证明:我们的目标是要证明var(¯x)<var(¯z)
var(Z)=var(X+c(Y−μ))=var(X)+c2var(Y)+2ccov(X,Y)为了使得上式关于c达到最小, 对应的最小值点为
c∗=−2cov(X,Y)2var(Y)=−cov(X,Y)var(Y)对应的最小值为
4var(Y)var(X)−4cov(X,Y)24var(Y)=var(X)−cov(X,Y)2var(Y)所以有
var(¯z)=var(1n∑{xi+c(yi−μ)})=1nvar(x1+c(y1−μ))=1nvar(x1)−1ncov(x1,y1)2var(y1)因为X和Y相关, 所以cov(x1,y1)>0, 因此var(¯z)<var(¯x), 即达到了缩减方差的目的
(3)若θ=E(eU)=∫10exdx, 其中U∼U(0,1). 已知cov(eU,U)=0.14086, var(eU)=0.2420, var(Y)=112
解:设X=eU, 令Y=U, 那么E(Y)=0+12=12, 令新的随机变量为Z=eU+c(u−12). 那么var(z)=var(eU+c(U−12))=0.0039. 根据之前的控制变量法的原理简述可以得到¯z是θ的无偏估计, 并且也可以得到var(¯z)的结果, 在此不再赘述.
(3) 例题:
θ=∫10∫10exp(x+y)2dxdy=EXY(e(x+y)2)解:令u1,u2,…,un,u‘1,u‘2,…,u‘n独立同分布与U[0,1], 那么
ˆθ=12n[n∑i=1e(u1+u′1)2+n∑i=1e{(1−u1)+(1−u′1)}2]作为θ的对偶变量法的估计, 所以该估计显然是无偏估计.
var(ˆθ)=var{e(u1+u′1)2}2n+cov[e(u1+u′1)2,e{(2−u1−u′1)]2n其中针对第二项我们无法直接得到结果,所以我们需要对其进行估计
cov[e(u1+u′1)2,e{(2−u1−u′1)]2n=E[exp{(u1+u′1)2+(2−u1−u′1)2}]−(E[exp{(u1+u′1)2])22n对于上式的估计为
12n[1nn∑i=1exp{(ui+ui)2+(2−ui−u′i)2}−ˆθ2]ps:
因为u1+u′1∼U[0,2], 所以−(u1+u′1)∼U[−2,0], 所以2−(u1+u′1)∼U[0,2]
非参数估计
(1) 用核光滑法如果估计m(x)/核光滑法的原理/核光滑法的思想?
答:核光滑法思想:已知Y=m(x)+ε, (xi,yi), i=1,2,…,n, 选定R上的函数K(⋅)和整的常数列h=hn(ps:一般取值就是某个整数), 记Kh(⋅)=1hK(⋅h). 定义
ˆmnw(x)=n∑i=1WKni(x)Yi,其中
WKni(x)=Kh(xi−x)∑ni=1Kh(xj−x)相当于权重, 称WKni(x)为m(x)的N−W估或核估计.
补充:核光滑法就是构造m(x)的估计量的方法, 其中m(x)叫光滑函数, 它的定义是
m(x)=E(Y|X=x).所以m(x)也叫条件期望函数.
(2) 在均匀核下,给定 (xi,yi), i=1,2,…,n, 估计m(x)?
均匀核:K(u)=12I(|u|≤1)
m(x)的核估计是
ˆmNW(x)=n∑i=1WKni(x)yi=n∑i=1Kh(xi−x)∑nj=1Kh(xj−x)yi=n∑i=112hI(|xi−x|≤1)∑nj=112hI(|xj−x|≤1)yi=n∑i=1I(|xi−x|≤1)∑nj=1I(|xj−x|≤1)yi可以看出上式是等权求和, 因为针对给定的x, 上述示性函数都会变成1和0,所以权重都是相同的(不考虑权重为0的情况)
(2) 在抛物线核下,给定 (xi,yi), i=1,2,…,n, 估计m(x)?
抛物线核:K(u)=34(1−u2)I(|u|≤1)
那么
Kh(xi−x)=34h{1−(xi−xh)2}I(|xi−xh|≤1),并且
WKni=Kh(xi−x)∑nj=1Kh(xj−x)因此m(x)的核估计是
ˆmNW(x)=n∑i=1WKni(x)yi={1−(xi−xh)2}I(|xi−xh|≤1)∑nj=1{1−(xj−xh)2}I(|xj−xh|≤1)yi.看出上式是不等权求和, 距离x越近, 权重越大, 距离x越远, 权重越小,
EM算法
(1) EM算法的思想
已知Xobs=xobs, Xmis对应的条件分布为
f(xmis|xobs,θ(t))=f(xobs,xmis|θ(t))f(xobs|θ(t)),那么在完全数据的对数似然函数
lnf(xobs,xmis|θ(t))中, 我们将Xobs=xobs看成已知, 关于未知部分$X{mis},求期望得到关于\theta的函数Q\{t}(\theta),然后再求Q_t(\theta)的最大值点作为下一个\theta^{(t+1)},其中X_{obs}为观测样本,X_{mis}为未观测样本,theta^{(t)}为第t轮迭代得到的theta$的估计.
(2) E步和M步分别指什么?
E步(期望步): 计算完全数据的对数似然函数的期望
Qt(θ)=E{lnf(xobs,xmis)|xobs,θ(t)},其中期望是针对$X{mis},求期望的时候,X\{mis}对应的条件密度为f(x_{mis}|x_{obs}, \theta^{(t)})$
M步(最大化步): 求Qt(θ)的最大值点θ(t+1), 然后迭代进入下一步.
(3) 例题: 总体的分布是N(0,1), 观测样本X1,X2,…,Xn, 相应的观测值为x1,x2,…,xn, 另外有为观测的样本Z1,Z2,…,Zm, 仅知道zj>a, j=1,2,…,m, 假设样本之间相互独立.
解: 首先完全数据的联合密度为
f(xobs,xmis|θ)=n∏i=1f(xi)n∏j=1f(zi)=n∏i=1ϕ(xi−θ)n∏j=1ϕ(zi−θ)已知zj>a, 即该部分也算是观测到的一部分,并且有
P(z>a)=P(z−θ>a−θ)=1−P(z−θ≤a−θ)=1−Φ(a−θ),那么观测数据的似然函数(即观测到的情况所对应的联合概率)为
f(xobs|θ)={1−Φ(a−θ)}mn∏i=1ϕ(xi−θ).所以
f(xmis|xobs,θ)=f(xobs,xmis|θ)f(xobs|θ)=∏mj=1ϕ(zj−θ){1−Φ(a−θ)}m.迭代时, 第t步对应的θ为θ(t), 因此根据EM算法可以得到
E步:
Qt(θ)=E{lnn∏i=1ϕ(xi−θ)m∏j=1ϕ(zi−θ)|x,θ(t)}=E{n∑i=1lnϕ(xi−θ)+m∑j=1E{lnϕ(zi−θ)|x,θ(t)}=n∑i=1lnϕ(xi−θ)+m∑j=1E{lnϕ(zi−θ)|x,θ(t)}其中x=(x1,x2,…,xn), zj之间相互独立, 且有相同的条件密度
ϕ(z−θ(t))1−Φ(a−θ(t)).j=1,2,…,m, zj>a. 因此
Qt(θ)=n∑i=1lnϕ(xi−θ)+m∑j=1E{lnϕ(zi−θ)|x,θ(t)}=n∑i=1lnϕ(xi−θ)+m∫+∞alnϕ(z−θ)ϕ(z−θ(t))1−Φ(a−θ(t))dzM步: 求Qt(θ)的最大值
∂Qt(θ)∂θ=−n∑i=1ϕ′(xi−θ)ϕ(xi−θ)−m∫+∞aϕ′(z−θ)ϕ(z−θ)ϕ(z−θ(t))1−Φ{a−θ(t)}dz=n∑i=1(xi−θ)+m∫+∞a(z−θ)ϕ(z−θ(t))1−Φ{a−θ(t)}dz=n∑i=1(xi−θ)+m∫+∞a(z−θ(t)+θ(t)−θ)ϕ(z−θ(t))1−Φ{a−θ(t)}dz=n∑i=1(xi−θ)+m∫+∞a(z−θ(t))ϕ(z−θ(t))1−Φ{a−θ(t)}dz+mθ(t)−θ1−Φ{a−θ(t)}∫+∞aϕ(z−θ(t))dz=n¯x−nθ+m∫+∞a(z−θ(t))ϕ(z−θ(t))1−Φ{a−θ(t)}dz+m(θ(t)−θ)=−(m+n)θ+n¯x+mθ(t)+mϕ(a−θ(t))1−Φ{a−θ(t)}.其中用到了
∫+∞a−θ(t)xϕ(x)dx=∫+∞a−θ(t)x1√2πe−x22dx=∫+∞a−θ(t)1√2πe−x22dx22=−1√2πe−x22∫+∞a−θ(t)=1√2πe−(a−θ(t))22=ϕ(a−θ(t))以及
∫+∞aϕ(z−θ(t))dz1−Φ{a−θ(t)}=∫+∞aϕ(z−θ(t))d(z−θ(t))1−Φ{a−θ(t)}=∫+∞a−θ(t)ϕ(x)d(x)1−Φ{a−θ(t)}=1−Φ{a−θ(t)}1−Φ{a−θ(t)}=1那么有
∂Q(θ)∂θ=0,可得
θ(t+1)=1m+n[n¯x+mθ(t)+mϕ(a−θ(t))1−Φ{a−θ(t)}](4)例题:
Y1,Y2,…,Yn独立同分布于exp(θ), y1=5是观测到的, y2的值是缺失的.
那么完全数据的对数似然函数为
lnL(θ|y)=lnfY(y|θ)=lnθe−θy1θe−θy2=2lnθ−θy1−θy2E步(期望步):
E{lnL(θ|y)|θ(t),y1}=2lnθ−θy1−θE{y2|θ,y1}=2lnθ−θy1−θ1θ(t)M步(最大化步):
2θ−5−1θ(t)=0⇔2θ=5+1θ(t)⇔2θ(t+1)=2θ(t)5θ(t)+1当θ(t+1)=θ(t)时, 迭代停止, 即
x=2x5x+1⇒5x2+x=2x⇒5x2−x=0⇒x1=0.2,x2=0(舍弃)求解完毕.