众所周知,方差公式为:S2=1n∑i=1n(xi−xˉ)2S^2=\frac1n\sum^n_{i=1}(x_i-\bar x)^2S2=n1i=1∑n(xi−xˉ)2 但是实际上,在很多情况下我们无法获取所有的样本,更多时候其实只能获取总样本中的一部分样本,而通过这部分样本算出的样本方差和使用总样本计算出的总体方差之间肯定存在误差,也就是说这个样本方差是有偏的,因此,我们希望对样本方差进行修正,使样本方差是总体方差的一个无偏估计。
无偏估计
我们对总样本进行多次抽取,并分别计算平均值 xˉ1,xˉ2,⋯\bar x_1,\bar x_2,\cdotsxˉ1,xˉ2,⋯,然后把这些值再做平均,记为 E(Xˉ)E(\bar X)E(Xˉ),这样随着抽取次数增多,这个期望值会越来越精确,并且接近总体均值 μ\muμ,如果满足 E(Xˉ)=μE(\bar X)=\muE(Xˉ)=μ,那么这就是一个无偏估计,其中每次计算的样本均值就是一个随机变量。
无偏估计的意义是:在多次重复下,它们的平均值接近所估计的参数的真值
无偏方差
假设样本均值为 Xˉ\bar XXˉ,总体均值为 μ\muμ,那么我们希望:E(S2)=E(1n∑(xi−Xˉ)2)=1n∑(xi−μ)2=σ2E(S^2)=E\left(\frac1n\sum(x_i-\bar X)^2\right)=\frac1n\sum(x_i-\mu)^2=\sigma^2E(S2)=E(n1∑(xi−Xˉ)2)=n1∑(xi−μ)2=σ2
我们接着往下推:E(1n∑(xi−Xˉ)2)=E(1n∑((xi−μ)−(Xˉ−μ))2)=E(1n∑((xi−μ)2−2(xi−μ)(Xˉ−μ)+(Xˉ−μ)2))=E(1n∑(xi−μ)2−2n∑(xi−μ)(Xˉ−μ)+1n∑(Xˉ−μ)2)\begin{align}
E\left(\frac1n\sum(x_i-\bar X)^2\right)&=E\left(\frac1n\sum((x_i-\mu)-(\bar X-\mu))^2\right)\\
&=E\left(\frac1n\sum\left((x_i-\mu)^2-2(x_i-\mu)(\bar X-\mu)+(\bar X-\mu)^2\right)\right)\\
&=E\left(\frac1n\sum(x_i-\mu)^2-\frac2n\sum(x_i-\mu)(\bar X-\mu)+\frac1n\sum(\bar X-\mu)^2\right)
\end{align}E(n1∑(xi−Xˉ)2)=E(n1∑((xi−μ)−(Xˉ−μ))2)=E(n1∑((xi−μ)2−2(xi−μ)(Xˉ−μ)+(Xˉ−μ)2))=E(n1∑(xi−μ)2−n2∑(xi−μ)(Xˉ−μ)+n1∑(Xˉ−μ)2)
因为 1n∑(xi−μ)=1n∑xi−μ=Xˉ−μ\frac1n\sum(x_i-\mu)=\frac1n\sum x_i-\mu=\bar X-\mun1∑(xi−μ)=n1∑xi−μ=Xˉ−μ 和 1n∑Xˉ=Xˉ\frac 1n\sum\bar X=\bar Xn1∑Xˉ=Xˉ,我们可以继续简化:
E(1n∑(xi−Xˉ)2)=E(1n∑(xi−μ)2−2n∑(xi−μ)(Xˉ−μ)+1n∑(Xˉ−μ)2)=E(1n∑(xi−μ)2−2(Xˉ−μ)2+(Xˉ−μ)2)=E(1n∑(xi−μ)2)−E((Xˉ−μ)2)≤σ2\begin{align}
E\left(\frac1n\sum(x_i-\bar X)^2\right)&=E\left(\frac1n\sum(x_i-\mu)^2-\frac2n\sum(x_i-\mu)(\bar X-\mu)+\frac1n\sum(\bar X-\mu)^2\right)\\
&=E\left(\frac1n\sum(x_i-\mu)^2-2(\bar X-\mu)^2+(\bar X-\mu)^2\right)\\
&=E\left(\frac1n\sum(x_i-\mu)^2\right)-E\left((\bar X-\mu)^2\right)\le\sigma^2
\end{align}E(n1∑(xi−Xˉ)2)=E(n1∑(xi−μ)2−n2∑(xi−μ)(Xˉ−μ)+n1∑(Xˉ−μ)2)=E(n1∑(xi−μ)2−2(Xˉ−μ)2+(Xˉ−μ)2)=E(n1∑(xi−μ)2)−E((Xˉ−μ)2)≤σ2
可以发现,当 Xˉ=μ\bar X=\muXˉ=μ 的时候,也就是取全部样本的时候,E(S2)=σ2E(S^2)=\sigma^2E(S2)=σ2,这样是不行的,所以我们要进行修正,我们接着上式继续化简:E(1n∑(xi−μ)2)−E((Xˉ−μ)2)=Var(x)−Var(Xˉ)E\left(\frac1n\sum(x_i-\mu)^2\right)-E\left((\bar X-\mu)^2\right)=Var(x)-Var(\bar X)E(n1∑(xi−μ)2)−E((Xˉ−μ)2)=Var(x)−Var(Xˉ)
对于 Var(Xˉ)Var(\bar X)Var(Xˉ) 我们进行如下处理:
Var(Xˉ)=Var(1n∑xi)=1n2Var(∑xi)Var(\bar X)=Var\left(\frac1n\sum x_i\right)=\frac1{n^2}Var\left(\sum x_i\right)Var(Xˉ)=Var(n1∑xi)=n21Var(∑xi)
由于样本之间是相互独立的,所以 Var(A+B)=Var(A)+Var(B)Var(A+B)=Var(A)+Var(B)Var(A+B)=Var(A)+Var(B),因此1n2Var(∑xi)=1nVar(x)\frac1{n^2}Var\left(\sum x_i\right)=\frac1nVar(x)n21Var(∑xi)=n1Var(x)
所以 Var(x)−Var(Xˉ)=n−1nVar(x)=n−1nσ2=E(S2)Var(x)-Var(\bar X)=\frac{n-1}nVar(x)=\frac{n-1}n\sigma^2=E(S^2)Var(x)−Var(Xˉ)=nn−1Var(x)=nn−1σ2=E(S2)
所以,我们只要对样本方差 S2S^2S2 乘以 nn−1\frac n{n-1}n−1n就可以得到无偏估计,即无偏方差:nn−1S2=nn−11n∑(xi−Xˉ)2=1n−1∑(xi−Xˉ)2\frac n{n-1}S^2=\frac n{n-1}\frac 1n\sum(x_i-\bar X)^2=\frac1{n-1}\sum(x_i-\bar X)^2n−1nS2=n−1nn1∑(xi−Xˉ)2=n−11∑(xi−Xˉ)2