估计分省和全国标准差

$$ \newcommand{\Var}{\mathop{\rm Var}\nolimits} $$

我向来关心更关心平均身高,而不是身高的标准差。不过我同意,标准差更大的地方,大街上的「目测身高」会更高一些。这是人的心理效应,是认知和实际的偏差。但是研究身高的我们,缘起又何尝不是微妙的社会心理呢?我决定承认这种心理的存在,好好研究一下标准差。

模型

我建立一个简单的双层随机性的身高模型。假设在某个国家,这里的人的身高由两个因素确定,一个是他出生的省份,另一个是他在这个省份中的相对位置。用数学公式表达便是,

\[H = H_{\text{省份}} + D.\]

其中,$H$是这个人的身高,$H_\text{省份}$是他所在省份的平均身高,而$D$是他在省份内的变异。

现在我们假设$H_\text{省份}$和$D$是相互独立的随机变量,而且$H_\text{省份}$遵循某个区间$[a,b]$内的均匀分布,而$D$遵循正态分布:$D \sim \mathcal N(0, \sigma^2)$。

这相当于是说,我们假设每个省份内部身高遵循一个相同标准差的正态分布,而所有省份的平均身高均匀分布在$[a,b]$里面,并且,每个省份人数相同。

那么,这个国家整体的方差是

$$ \begin{align} \Var H &= \Var H_\text{省份} + \Var D \\ &= \frac{(b-a)^2}{12} + \sigma^2. \end{align} $$

也就是说,国家的标准差、省份的标准差和极差,知道其中两个就能得到第三个。当然,前提是这个模型能够使用。

算算中国的标准差

那中国汉族17岁男生举例。2014年,全国各省合并的标准差为6.29 cm。根据之前的身高地图,全国极差为8.35厘米(北京与贵州的差异)。那么代入数据,得到标准差为

\begin{align} \sigma &= \sqrt{\Var H - \frac{(b-a)^2}{12}} \\ &= \sqrt{6.29^2 - \frac{8.35^2}{12}} \\ &\approx 5.82. \end{align}

也就是说,中国省份内部的标准差大约为5.82 cm。这或许与璀璨星空的观察相符。

模型的不足

  1. 忽略了各个省份之间标准差的差异;
  2. 认为各个省份人数一样,实际上可能并不如此;
  3. 各个省份的身高也不见得均匀分布,使用极差只是一个粗略的估计。

因此,套用上述公式时,需要明白这不是一个非常精确的结果。

知识共享许可协议
本作品采用
知识共享署名 3.0 中国大陆许可协议
 进行许可。