Monthly Archives: October 2009

样本方差为什么是除以n-1

不要bs……话说这个问题从中学开始就困扰着我,可是课本上通常都是语焉不详一笔带过,似乎是很显然的样子,搞得我一度无限怀疑自己的智商。最近仔细看了看书,整理了一下思路,终于把它推倒了。赶紧记下来,请各位过路的大牛指教。

下面的推倒过程需要两个结论,在这里不加证明了,基本上概率书上都有。(1)对于任意两个随机变量X,Y都有 E(X+Y) = E(X) + E(Y),和的期望等于期望的和 (2) V(X) = E(X^2) – E(X)^2,方差等于平方的期望减去期望的平方。(3)若X,Y独立,有V(X+Y) = V(X) + V(Y)。另外还有E(aX+b) = aE(X) + b, V(aX+b) = a^2*V(X)

从头来说,有这么个随机变量X,我们不知道它的分布,但是我们可以获得很多个满足同样分布的样本Xi,现在我们要从这些样本里估计这个随机分布的一些信息,比如它的均值(所谓总体均值)和方差(所谓总体方差)。当然我们想让我们的估计尽可能地准确,判断准确与否的一个标准(不是唯一标准)就是看它是不是“无偏估计”(unbiased estimation),所谓无偏估计就是说这个估计的期望值(每个样本都是一个随机变量,估计值是由这样样本算出来的,所以也是个随机变量,也有期望方差等等概念)就是真实值。

比如最简单的,样本均值 $$bar{X_n} = frac{1}{n} sum_{i=1}^n X_i $$ 就是一个无偏估计,因为我们可以证明$$E(bar{X_n}) = mu$$:

$$E(bar{X_n}) = E(frac{1}{n} sum_{i=1}^n X_i) = frac{1}{n} E(sum_{i=1}^n X_i) = frac{1}{n} n E(X_i) = mu $$

这里第三个等号用到了结论(1)。

这个样本均值比较自然而符合直观,加起来一除自然是平均值。但下面不太符合直观的来了,样本方差$$S_n^2$$的无偏估计是

$$S_n^2 = frac{1}{n-1} sum_{i=1}^n (X_i – bar{X_n}) $$

这里的$$bar{X_n}$$就是上面那个样本均值。这里就比较别扭了,因为感觉上应该是除以n才对,怎么会冒出一个n-1来?但是下面我们可以证明 $$E(S_n^2) = sigma^2 $$.

推倒前还需要一个东西,$$bar{X_n}$$的方差:
$$V(bar{X_n}) = V(frac{1}{n} sum_{i=1}^n X_i) = frac{1}{n^2} nV(X_i) = frac{sigma^2}{n} $$

下面可以开始了:

$$E(S_n^2) = E(frac{1}{n-1} sum_{i=1}^{n} (X_i – bar{X_n})^2) = frac{1}{n-1} E(sum_{i=1}^n (X_i^2 – 2X_ibar{X_n} + bar{X_n}^2) ) $$

这里后面那个E分成了三部分,第一部分

$$E(sum_{i=1}^n X_i^2) = nE(X_i^2) = n(V(X) + E(X)^2) = n(sigma^2 + mu^2)$$

这里第二个等号利用结论(2)

关于第二部分和第三部分,实际上有

$$E(sum_{i=1}^n X_i bar{X_n}) = E(sum_{i=1}^n bar{X_n}^2) = nE(bar{X_n}^2)$$

这个只要把$$bar{X_n}$$代入展开就可以发现,所以后面两项就只剩下了 $$ -nE(bar{X_n}^2) $$,而

$$E(bar{X_n}^2) = V(bar{X_n}) + E(bar{X_n})^2 = frac{sigma^2}{n} + mu^2$$

代入起来就有 $$ E(S_n^2) = frac{1}{n-1} (n(sigma^2 + mu^2) – (sigma^2 + nmu^2)) = sigma^2 $$。故得证。

最后说一句,“无偏”不是必须的,比如我们就除以n了:S’ = (X1+X2+…+Xn)/n,可以发现当n趋于无穷时,这个S’和前面的样本方差是无限趋近的,这样的结果实际上也是不错的。

我的爱与不爱

值此普天同庆之际,我越发对自己的智商感到怀疑。我感觉自己陷入了混乱的概念中,我只知道我喜欢一些东西,讨厌另一些东西,但这两类东西似乎被有意无意地用同一套词汇来表示。不得已,只好举例说明,我爱的是什么,我不爱的是什么,希望各位同学帮我澄清一下概念。

我爱黑眼睛黄皮肤;我爱方块字;我爱宫保鸡丁和鱼香肉丝;我爱春节的鞭炮、端午的粽子、中秋的月饼;我爱华北平原的麦田;我爱村东头那个大水坑;我爱爸爸的皱纹和妈妈的白发;我爱漂亮女生;我爱我的朋友们的笑容。

我不爱晚清政府;我不爱焚书坑儒;我不爱革命和饿殍;我不爱那个德国人YY出来的理论;我不爱六十年前的承诺仍然遥遥无期;我不爱城乡分算的基尼系数;我不爱震成废墟的小学教室;我不爱情绪稳定;我不爱不明真相;我不爱我到服务器的连接被重置;我不爱我的部分搜索结果无法显示。

孙中山的国是大清么?甘地的国是不列颠么?我的国呢?