Processing math: 100%
0%

现代数据分析方法

本文要是针对现代数据分析方法中比较经典的问题进行了总结

极大似然估计(MLE)

(1)简述极大似然(估计)的思想?
(2)极大似然估计一定存在吗?如果不一定存在请举出反例?
(3)若极大似然估计存在的话一定唯一吗?如果不一定唯一, 请举出反例?
答:

(1) 给定一组样本x1,x2,,xn, 他们对应的联合密度函数就是似然函数, 极大似然的思想就是通过使似然函数达到最大,也就是当前概率达到最大来求解相应的参数估计.

(2) 极大似然估计不一定存在.
比如:当概率密度函数标准正态分布和一般正态分布的高斯混合分布时,即

f(x;μ,σ2)=1212πex22+1212πσe(xμ)22σ2,

那么上式对应的极大似然估计不存在, 其中μσ2分别为一般正态分布的期望和方差. 我们假设x1,x2,,xni.i.d的,那么对应的似然函数为

L(x1,x2,...,xn;μ,σ2)=ni=1f(xi;μ,σ2)={1212πex212+1212πσe(x1μ)22σ2}ni=2{1212πex2i2+1212πσe(xiμ)22σ2}

ˆμ=x1, ˆσ2+, 那么

1212πex212+1212πσe(x1μ)22σ2=1212πeˆμ22+1212πσ+

i=2,3,,n时, 若xi=ˆμ, 那么

1212πex2i2+1212πσe(xiμ)22σ2+,

xiˆμ, 那么

1212πex2i2+1212πσe(xiμ)22σ21212πex2i2.

综上所述L(x1,x2,,xn;μ,σ2), 因此该似然函数的极大似然估计不存在.

(3) 极大似然估计不一定唯一

比如: 有一组独立同分布于U(θ,θ+1)的样本x1,x2,,xn,设他们的次序统计量是

x(1),x(2),...,x(n),

对应的似然函数为

L(x1,x2,...,xn;θ)=I(x(1)θ)I(x(n)θ+1).

为了使得上述似然函数达到最大, 那么θ需要满足

{θx(1)θx(n)1x(n)1θx(1)

因此θ的极大似然估计ˆθ不唯一.

Inverse CDF Method

(1) 请叙述Inverse CDF Method定理以及证明过程

(2) 用逆变化法生成指数分布的随机数

答:

(1) Inverse CDF Method定理:对任意的连续分布函数(这里不要求分布函数严格递增), 如果随机变量UU(0,1), 那么X=F1(U)的分布函数为F

证明:

P(Xx)=P(F1(U)x)=P(UF(x))=F(x).

补充:函数存在反函数的充要条件是函数的定义域与值域是一一映射,所以严格单调递增函数会保证反函数一定存在,但是如果不要求严格递增也是可以的,只不过需要针对不增的区间去定义F(x)x之间的映射关系来保证反函数的映射关系.

(2) 用逆变换法生成指数分布的随机数

因为指数分布Exp(λ)的分布函数为

F(x)=1eλx

其中x0. 我们设F(x)=u, 那么有

F(x)=u1u=eλxx=ln(1u)λ.

生成指数分布随机数的步骤如下:

step1. 产生U(0,1)上的随机数u;

step2. 根据x=ln(1u)λ得到指数分布的随机数x.

方差缩减

(1) 简述对偶变量法和控制变量法和控制变量法

(2) 选择一种方差缩减方法去缩减θ=eu的方差

答:

(1) Antithetic variates(对偶变量法)

假设x1,x2为来自同一分布的两个样本, 我们要用x1+x22来估计E(x).

a. 当x1,x2相互独立时, var(x1+x22)=x12;
b. 当x1,x2不独立时, var(x1+x22)=x12+cov(x1,x2)2.

如果cov(x1,x2)<0, 那么就达到了缩减方差的目的.

推论:h(u1,u2,,un)是关于每个自变量的单调函数, 则对n个独立的U(0,1)上的随机数u1,u2,,un

cov{h(u1,u2,...,un),h(1u1,1u2,...,1un)}0.

x=h(u1,u2,,un), 其中h()为每个分量的单调函数, u1,u2,,un是服从U(0,1)的相互独立的随机数, 那么根据推论可以得到x1=h(u1,u2,,un)x2=h(1u1,1u2,,1un)负相关, 即cov(x1,x2)<0, 这样就达到了方差缩减的目的.

(2) Control variates

思想: 找一个与X有相关性的随机变量Y, 并且Y的期望已知, 我们将其设为E(Y)=μ, 那么我们可以构造一个新的随机变量Z=X+C(Yμ), 然后用zi=xi+c(yiμ)的样本均值来估计参数θ, 其中θ=E(xi), i=1,2,,n.

因为E(¯z)=1nni=1E(zi)=E(xi)=θ, 所以可以得到¯z也是θ的无偏估计

接下来证明通过上述构造方式得到的随机变量可以缩减方差

证明:我们的目标是要证明var(¯x)<var(¯z)

var(Z)=var(X+c(Yμ))=var(X)+c2var(Y)+2ccov(X,Y)

为了使得上式关于c达到最小, 对应的最小值点为

c=2cov(X,Y)2var(Y)=cov(X,Y)var(Y)

对应的最小值为

4var(Y)var(X)4cov(X,Y)24var(Y)=var(X)cov(X,Y)2var(Y)

所以有

var(¯z)=var(1n{xi+c(yiμ)})=1nvar(x1+c(y1μ))=1nvar(x1)1ncov(x1,y1)2var(y1)

因为X和Y相关, 所以cov(x1,y1)>0, 因此var(¯z)<var(¯x), 即达到了缩减方差的目的

(3)若θ=E(eU)=10exdx, 其中UU(0,1). 已知cov(eU,U)=0.14086, var(eU)=0.2420, var(Y)=112

解:设X=eU, 令Y=U, 那么E(Y)=0+12=12, 令新的随机变量为Z=eU+c(u12). 那么var(z)=var(eU+c(U12))=0.0039. 根据之前的控制变量法的原理简述可以得到¯zθ的无偏估计, 并且也可以得到var(¯z)的结果, 在此不再赘述.

(3) 例题:

θ=1010exp(x+y)2dxdy=EXY(e(x+y)2)

解:令u1,u2,,un,u1,u2,,un独立同分布与U[0,1], 那么

ˆθ=12n[ni=1e(u1+u1)2+ni=1e{(1u1)+(1u1)}2]

作为θ的对偶变量法的估计, 所以该估计显然是无偏估计.

var(ˆθ)=var{e(u1+u1)2}2n+cov[e(u1+u1)2,e{(2u1u1)]2n

其中针对第二项我们无法直接得到结果,所以我们需要对其进行估计

cov[e(u1+u1)2,e{(2u1u1)]2n=E[exp{(u1+u1)2+(2u1u1)2}](E[exp{(u1+u1)2])22n

对于上式的估计为

12n[1nni=1exp{(ui+ui)2+(2uiui)2}ˆθ2]

ps:

因为u1+u1U[0,2], 所以(u1+u1)U[2,0], 所以2(u1+u1)U[0,2]

非参数估计

(1) 用核光滑法如果估计m(x)/核光滑法的原理/核光滑法的思想?

答:核光滑法思想:已知Y=m(x)+ε, (xi,yi), i=1,2,,n, 选定R上的函数K()和整的常数列h=hn(ps:一般取值就是某个整数), 记Kh()=1hK(h). 定义

ˆmnw(x)=ni=1WKni(x)Yi,

其中

WKni(x)=Kh(xix)ni=1Kh(xjx)

相当于权重, 称WKni(x)m(x)NW估或核估计.

补充:核光滑法就是构造m(x)的估计量的方法, 其中m(x)叫光滑函数, 它的定义是

m(x)=E(Y|X=x).

所以m(x)也叫条件期望函数.

(2) 在均匀核下,给定 (xi,yi), i=1,2,,n, 估计m(x)

均匀核:K(u)=12I(|u|1)

m(x)的核估计是

ˆmNW(x)=ni=1WKni(x)yi=ni=1Kh(xix)nj=1Kh(xjx)yi=ni=112hI(|xix|1)nj=112hI(|xjx|1)yi=ni=1I(|xix|1)nj=1I(|xjx|1)yi

可以看出上式是等权求和, 因为针对给定的x, 上述示性函数都会变成1和0,所以权重都是相同的(不考虑权重为0的情况)

(2) 在抛物线核下,给定 (xi,yi), i=1,2,,n, 估计m(x)

抛物线核:K(u)=34(1u2)I(|u|1)

那么

Kh(xix)=34h{1(xixh)2}I(|xixh|1),

并且

WKni=Kh(xix)nj=1Kh(xjx)

因此m(x)的核估计是

ˆmNW(x)=ni=1WKni(x)yi={1(xixh)2}I(|xixh|1)nj=1{1(xjxh)2}I(|xjxh|1)yi.

看出上式是不等权求和, 距离x越近, 权重越大, 距离x越远, 权重越小,

EM算法

(1) EM算法的思想

已知Xobs=xobs, Xmis对应的条件分布为

f(xmis|xobs,θ(t))=f(xobs,xmis|θ(t))f(xobs|θ(t)),

那么在完全数据的对数似然函数

lnf(xobs,xmis|θ(t))

中, 我们将Xobs=xobs看成已知, 关于未知部分$X{mis},\thetaQ\{t}(\theta),Q_t(\theta)\theta^{(t+1)},X_{obs},X_{mis},theta^{(t)}ttheta$的估计.

(2) E步和M步分别指什么?

E步(期望步): 计算完全数据的对数似然函数的期望

Qt(θ)=E{lnf(xobs,xmis)|xobs,θ(t)},

其中期望是针对$X{mis},,X\{mis}f(x_{mis}|x_{obs}, \theta^{(t)})$

M步(最大化步): 求Qt(θ)的最大值点θ(t+1), 然后迭代进入下一步.

(3) 例题: 总体的分布是N(0,1), 观测样本X1,X2,,Xn, 相应的观测值为x1,x2,,xn, 另外有为观测的样本Z1,Z2,,Zm, 仅知道zj>a, j=1,2,,m, 假设样本之间相互独立.

解: 首先完全数据的联合密度为

f(xobs,xmis|θ)=ni=1f(xi)nj=1f(zi)=ni=1ϕ(xiθ)nj=1ϕ(ziθ)

已知zj>a, 即该部分也算是观测到的一部分,并且有

P(z>a)=P(zθ>aθ)=1P(zθaθ)=1Φ(aθ),

那么观测数据的似然函数(即观测到的情况所对应的联合概率)为

f(xobs|θ)={1Φ(aθ)}mni=1ϕ(xiθ).

所以

f(xmis|xobs,θ)=f(xobs,xmis|θ)f(xobs|θ)=mj=1ϕ(zjθ){1Φ(aθ)}m.

迭代时, 第t步对应的θθ(t), 因此根据EM算法可以得到

E步:

Qt(θ)=E{lnni=1ϕ(xiθ)mj=1ϕ(ziθ)|x,θ(t)}=E{ni=1lnϕ(xiθ)+mj=1E{lnϕ(ziθ)|x,θ(t)}=ni=1lnϕ(xiθ)+mj=1E{lnϕ(ziθ)|x,θ(t)}

其中x=(x1,x2,,xn), zj之间相互独立, 且有相同的条件密度

ϕ(zθ(t))1Φ(aθ(t)).

j=1,2,,m, zj>a. 因此

Qt(θ)=ni=1lnϕ(xiθ)+mj=1E{lnϕ(ziθ)|x,θ(t)}=ni=1lnϕ(xiθ)+m+alnϕ(zθ)ϕ(zθ(t))1Φ(aθ(t))dz

M步: 求Qt(θ)的最大值

Qt(θ)θ=ni=1ϕ(xiθ)ϕ(xiθ)m+aϕ(zθ)ϕ(zθ)ϕ(zθ(t))1Φ{aθ(t)}dz=ni=1(xiθ)+m+a(zθ)ϕ(zθ(t))1Φ{aθ(t)}dz=ni=1(xiθ)+m+a(zθ(t)+θ(t)θ)ϕ(zθ(t))1Φ{aθ(t)}dz=ni=1(xiθ)+m+a(zθ(t))ϕ(zθ(t))1Φ{aθ(t)}dz+mθ(t)θ1Φ{aθ(t)}+aϕ(zθ(t))dz=n¯xnθ+m+a(zθ(t))ϕ(zθ(t))1Φ{aθ(t)}dz+m(θ(t)θ)=(m+n)θ+n¯x+mθ(t)+mϕ(aθ(t))1Φ{aθ(t)}.

其中用到了

+aθ(t)xϕ(x)dx=+aθ(t)x12πex22dx=+aθ(t)12πex22dx22=12πex22+aθ(t)=12πe(aθ(t))22=ϕ(aθ(t))

以及

+aϕ(zθ(t))dz1Φ{aθ(t)}=+aϕ(zθ(t))d(zθ(t))1Φ{aθ(t)}=+aθ(t)ϕ(x)d(x)1Φ{aθ(t)}=1Φ{aθ(t)}1Φ{aθ(t)}=1

那么有

Q(θ)θ=0,

可得

θ(t+1)=1m+n[n¯x+mθ(t)+mϕ(aθ(t))1Φ{aθ(t)}]

(4)例题:

Y1,Y2,,Yn独立同分布于exp(θ), y1=5是观测到的, y2的值是缺失的.

那么完全数据的对数似然函数为

lnL(θ|y)=lnfY(y|θ)=lnθeθy1θeθy2=2lnθθy1θy2

E步(期望步):

E{lnL(θ|y)|θ(t),y1}=2lnθθy1θE{y2|θ,y1}=2lnθθy1θ1θ(t)

M步(最大化步):

2θ51θ(t)=02θ=5+1θ(t)2θ(t+1)=2θ(t)5θ(t)+1

θ(t+1)=θ(t)时, 迭代停止, 即

x=2x5x+15x2+x=2x5x2x=0x1=0.2,x2=0()

求解完毕.