样本方差、偏差平方和、
样本方差\(S^2\)
\]
样本均值 \(\bar{x}\) 总位于样本中部,它是总体期望 \(\mu\) 的无偏估计。
各个数据 \(x_i\) 对 \(\bar{x}\) 的偏差 \(x_i – \bar{x}\) 可正可负,其和恒为零,即
\]
由于各个偏差之和恒为零,所以样本偏差之和不能把偏差积累起来,不能用来度量样本散布大小。
偏差平方和\(Q\)
\]
偏差平方和 Q 可以把 n 个偏差积累起来,用于度量 n 个数据的散布大小。
记住:在样本量相等情况下,利用偏差平方和大小可以比较出样本散布的大小。
例如:
比较下面两个样本的散布大小:
样本一:
样本均值:
\]
偏差平方和:
\]
样本二:
样本均值:
\]
偏差平方和:
\]
直观上就可以看出,样本二比样本一分散(或者说样本一比样本二集中),其偏差平方和大小与这个直观感觉是一致的。
可见,在样本量相等的情况下,利用偏差平方和大小可以比较出样本散布的大小。
平均平方差和\(S_{n}^{2}\)
在样本量不同的场合,偏差平方和 \(Q\) 失去比较样本散布大小的公平性,因为样本量大的偏差平方和倾向偏大一些。
为了消除样本量大小对偏差平方和的干扰,改用平均偏差平方和 \(S_{n}^{2}\) 来度量样本散布大小,
其计算公式如下:
\]
它表示每个样本点上平均有多少偏差平方和,这就可在样本量不同场合下比较其散布大小。
例如:
比较下面两个样本的散布大小:
样本三:
样本均值:
\]
偏差平方和:
\]
样本四:
样本均值:
\]
偏差平方和:
\]
若仅从偏差平方和看,\(Q_4\)>\(Q_3\),但是“样本四比样本三更分散显然是不对的”,\(Q_4\)比较大的原因是样本四样本量是样本三样本量的3倍。所以两者不可比较。
为了消除样本量大小的干扰,改用 平均偏差平方和 \(S_{n}^{2}\) 即可:
样本三:
\]
样本四:
\]
所以从 平均偏差平方和 \(S_{n}^{2}\) 可以看出,样本三更分散一些,计算结果符合直观。
实际中 \(S_{n}^{2}\) 也被用来做 总体方差 \(σ^2\) 的估计,简称 \(S_{n}^{2}\) 为样本方差
\(S_{}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}(x_i-\bar{x} )^2\) 与 \(S_{n}^{2}=\frac{1}{n} \sum_{i=1}^{n}(x_i-\bar{x} )^2\) 都是平均偏差平方和,都称为样本方差。
但是\(S_{}^{2}\)用自由度(n-1)作平均,是无偏的样本方差;
后者\(S_{n}^{2}\)用自由度(n)作平均,是有偏的样本方差;
样本容量n很大的情况下两者相差无几,可以忽略不计,但是在小样本场合,\(S_{}^{2}\)明显优于\(S_{n}^{2}\)。因此大多数统计学家和实际工作者更愿意使用\(S_{}^{2}\)去计算方差。