前言
本文主要证明对于线性回归而言,决定系数为样本相关系数的平方,因此从线性回归模型,决定系数和相关系数三个方面进行论述
线性回归模型
设一元线性回归模型为
其中残差项$\epsilon$是独立同分布于$N(0, \sigma^2)$。假设有n组来自于总体的样本点 $(x_i, y_i)$
$i=1,2,…,n$。利用最小二乘法,我们的目标是使得$ SSE = \sum_{i=1}^n(y_i-a-bx_i)^2 $达到最小,那么对$a$和$b$分别求偏导
令(1.1)中的两个式子分别为零,可以得到
同时有
其中$\bar{y}= \frac{1}{n}\sum_{i=1}^ny_i$,$\hat{y_i}=\hat{a} + \hat{b}x_i$, $i=1,2,…,n$
根据(1.2)式,可以得到
因此可以得到
其中 $i=1,2,…,n$
决定系数
定义
决定系数(coefficient of determination,记为$R^2$),在统计学中用于度量因变量的变异中可由自变量解释部分所占的比例。通常用来评估线性回归模型的拟合优度
表达式
我们分别设总平方和,回归平方和和残差平方和分别为
并且它们满足
由此,决定系数可定义为
相关系数
定义
皮尔逊相关系数(Pearson’s r)是两个变量之间的协方差和标准差的商,它是衡量两个变量之间相关性的度量
表达式
总体相关系数
样本相关系数
二者关系证明
求证:$r_{y,\hat{y}}^2=R^2$
证明:
根据相关系数的定义我们可以得到
根据(1.3)和(1.4)式,我们可以得到
因此(1.5)可以被写成
即$r_{y,\hat{y}}^2 = R^2$,证毕