说说学生体质健康调研的问题
从1985到2019年,中国已经举行了8次学生体质健康调研(下称「调研」),这些数据,也成为了吧友们对各民族、各省身高判定的一个标准。尽管如此,调研仍然存在不少问题,也不能完全客观的反应各地的身高。
取样的问题
调研的取样方式,让其数据高于真实的身高水平。而在某些地区,又由于取样点校的原因,偏高得更多。
16~18岁,调研在普通高中取样,但是在中国,普通高中不是义务教育,全国整体的普高入学率只有55%左右。入学率高的天津、陕西、内蒙古、黑龙江,这个入学率接近70%,但是在西藏,入学率只有43%。
很多研究都证实了学习成绩跟身高的关联。根据吧友发的丹麦调查,通过高中毕业会考(studentereksamen)的人群,平均身高比没通过的高3~4厘米。
| 出生年份 | 组别 | 样本量 | 平均身高(标准差)/cm |
| 1939-43 | 通过会考 | 925 | 179.1 (6.0) |
| 未通过会考 | 6407 | 175.0 (6.5) | |
| 1944-8 | 通过会考 | 1436 | 179.6 (6.1) |
| 未通过会考 | 7746 | 176.0 (6.4) | |
| 1949-53 | 通过会考 | 1311 | 180.2 (6.2) |
| 未通过会考 | 6155 | 177.0 (6.5) | |
| 1954-8 | 通过会考 | 1428 | 181.1 (6.6) |
| 未通过会考 | 5345 | 178.1 (6.6) |
这是一个比较极端的比较,上世纪40~50年代出生的丹麦人中,通过高中毕业会考的比例远低于50%。所以尽管会有差异,中国没上普高,跟上普高的人群也差异不会那么大。
实际上,这个差距也是可以通过已有的数据估计的。2010、2014年,两次学生体质健康调研中,17岁汉族男学生的平均身高分别是171.4、172.1厘米。而2012年的应征青年体格调查中,17岁男青年的平均身高只有170.84厘米。
此处不比较两个调查中女性的身高,是因为应征入伍,女性的身高下限是160厘米。就算按照学生体质调研,也有一半以上的中国汉族女性无法达到下限。而对于男性的要求明显更低,只有162厘米。
除了只调查普高人群带来的偏差,还有调研的普高点校的偏差。比如说,山东的高中点校是:
- 济南中学、历城二中
- 烟台一中、牟平一中
- 济宁一中、邹城实验中学
山东本地的吧友对这几个高中在本地的水平,应该都有印象。或许这能解释为什么体质调研中烟台的身高如此之高。与其说这是烟台的调查,不如说这是烟台一中、牟平一中的调查。
| 组别 | 年龄/岁 | 平均身高/cm | ||
| 1985年 | 1995年 | 2010年 | ||
| 城男 | 16~18 | 171.10 | 173.57 | 176.36 |
| 城女 | 16~18 | 160.10 | 162.10 | 164.60 |
| 乡男 | 16~18 | 168.12 | 171.20 | 174.83 |
| 乡女 | 16~18 | 158.09 | 160.73 | 162.03 |
而在北京,体质调研的中学点校(包含初中)是:
- 石油附中、八一中学、玉渊潭中学
- 北京27中学、北京65中学、北京东直门中学
- 原北京62中学、原北京63中学、北京43中学
- 顺义第五中学、顺义第十中学、杨镇集团中学
- 杨宋中学、怀柔一中、怀柔二中
- 永乐店中学、西集中学、宋庄中学
城区最好的中学,都没有参加体质调研。
北京的好高中身高又有多高呢?也有数据让我们一窥究竟。赵鸿伟等研究了2013年北师大实验、北师大二附、北京四中的高三学生身高。男生平均176.9、女生164.7厘米,两性,特别是女性,都明显高于北京市城区的身高水平。
| 性别 | 项目 | 西城区 | 全国 | 北京市 |
| 男 | 身高/cm | 176.9 | 171.4 | 174.6 |
| 体重/kg | 69.9 | 61.5 | 66.8 | |
| 女 | 身高/cm | 164.7 | 159.2 | 162.0 |
| 体重/kg | 55.8 | 51.7 | 56.1 |
具体的数据问题
调研的一个优点是包括了7~22岁各个年龄段的身高,不同年龄段之间可以互相比较,从而能互相验证数据的准确性。一种方法是画将年龄作为横坐标,身高作为纵坐标画出生长发育图,试图用一条曲线穿过所有的数据点,再评价曲线的平滑程度。如果曲线在某一年龄段有突然的变化,那么多半这个数据有问题。我暂时不谈一般的方法,留给之后的一篇文章解释怎么更好地拟合生长曲线。下面说两个具体的问题。
17~18岁,为什么还缩了?
这是2014年第七次调研中,汉族各组别的16~18岁的平均身高。可以发现,男生在16~17岁还有增长,而在17~18岁则停止。而女生16~17岁增长已经很少,17~18岁则都出现了下降。
| 年龄/岁 | 平均身高/cm | |||
| 城男 | 城女 | 乡男 | 乡女 | |
| 16 | 172.16 | 160.58 | 170.53 | 158.94 |
| 17 | 172.71 | 160.53 | 171.40 | 159.13 |
| 18 | 172.60 | 159.87 | 171.39 | 158.92 |
在青年期,身高是一直增长的,50岁以后才会出现下降,为什么在调研中女生会出现这样的下降。可以提出两个假设:
- 这是随机误差。抽样人群、测量方法不同,都会造成测得的平均身高不一样。
- 中国人的身高在快速地增长,而2014年的17岁出生在1997年,18岁出生在1996年。一代人比一代人身高更高。
随机误差论通过简单的计算就可以否定。首先,调研中确定了一套测量方法,同一省份同一城市内,17岁和18岁的系统误差会是一致的。而调研的在7~18岁单年龄样本量超过4000人,简单的t检验就能看出城市女生17、18岁之间的差别,在统计学意义上相当显著。
第二点也可以通过定量分析证伪。如果城市女生17、18岁的身高差距由于出生年代不同造成,那么1996和1997年的身高差至少有0.66 (= 160.53 - 159.87) 厘米。(说至少,是因为1996年出生的城市女生在2013年时,会比在2014年矮,从而用1996年出生的17岁与1997年出生的17岁比较,差距会大于0.66厘米。)通过比较近几年的数据,我们发现中国汉族的增长速度远没有那么快,不会超过0.2厘米/年。
| 调查年份 | 平均身高/cm |
| 2000 | 159.54 |
| 2005 | 159.90 |
| 2010 | 160.00 |
| 2014 | 160.53 |
那原因究竟是什么?我也曾经百思不解,直到看到一份成都市成华区2016年体检数据才恍然大悟。
| 年龄/岁 | 男生 | 女生 | ||
| 平均身高/cm | 样本量 | 平均身高/cm | 样本量 | |
| 15~ | 169.09 | 2134 | 159.46 | 2010 |
| 16~ | 171.43 | 2078 | 160.27 | 1959 |
| 17~ | 172.09 | 1417 | 160.77 | 1542 |
| 18 | 171.96 | 402 | 160.26 | 283 |
没错,我们在这个数据里面也看见了17~18岁的身高下降,然而这并不是重点。原论文说到,这份数据
包括了成华区共48所中小学校,6~18岁学生体检数据,共计74650人,其中男生38914人,女生35736人。
而成华区的总人口才94万,这份数据占了8%的人口。后来我查询了2016年成都市成华区国民经济和社会发展统计公报,其中写到
全区小学25所,在校学生总数51145人,专任教师2226人;普通中学21所,在校学生总数24740人,专任教师1963人;中等职业教育学校4所,在校学生总数6238人,专任教师269人;学龄儿童入学率达100%,其中:女童入学率达100%。
小学加普通中学总人数75415人,如果加上中职学校,达到了81653人。这个体检数据更像是小学加普通中学,不包括中职。如果如此,那么这个样本量就接近全样本了。观察样本量,可以发现18岁的学生数量明显少于17岁。我推测的一个原因是,大城市上学较早,一般7岁之前都能上小学一年级,而体检时间多在第一学期,因此高三年级在体检时满18岁的数量明显少于不满18岁的。
而较晚上学18岁人群又有什么特征呢?可能是家长担心基础没打好,怕跟不上,也可能是留级。总之会与学习成绩负向关联,而学习成绩又跟身高正向关联。这样就不难解释为何18岁矮于17岁了。
回到学生体质健康调研,从2000年开始,各次调研都明确测量时间在每年的9~11月,正如上面所说,此时高三学生大部分还只有17岁,18岁占相对少数。而2014年调研的实施方案中更写到
12岁样本量不足时,可从附近小学或中学的学生中补足,但必须按小学检测项目要求进行检测。18岁样本量不足时,可从附近中学、中等职业学校、高校的学生中补足,但必须按中学检测项目要求进行检测。上述样本均需选择本地户籍的学生。
鉴于各地小学生入学年龄不一,6岁年龄组学生样本数量不作具体规定。
看来教育部门也认识到了18岁样本量可能不足,并指定了其他地方进行补充。而2010年及之前,实施方案中写的是
18岁样本量不足时,可从附近中学或中等职业学校的学生中补足。
如果18岁样本用中职学校补足,那么18岁样本更矮也是很正常的。
说了这么多,我的建议是,分析调研数据(和其他从学校取样的数据)的时候尽量使用17岁,而不是18岁样本。不是因为17岁更高,而是因为17岁样本更稳定,也更能代表中国普通高中的高三年级。
重庆、黑龙江大学数据偏高
我们来看看2010和2014年,重庆、黑龙江的17~22岁身高数据。
| 调查年份 | 年龄/岁 | 平均身高/cm | |||||||
| 重庆 | 黑龙江 | ||||||||
| 城男 | 城女 | 乡男 | 乡女 | 城男 | 城女 | 乡男 | 乡女 | ||
| 2010 | 17 | 167.66 | 156.47 | 167.88 | 155.55 | 173.97 | 160.51 | 173.27 | 160.91 |
| 18 | 168.52 | 156.24 | 167.94 | 155.51 | 174.21 | 161.43 | 172.27 | 160.23 | |
| 19~22 | 171.53 | 160.18 | 170.27 | 158.70 | 176.29 | 163.93 | 175.06 | 162.67 | |
| 2014 | 17 | 168.10 | 157.82 | 168.74 | 156.93 | 174.61 | 162.61 | 174.63 | 162.67 |
| 18 | 168.93 | 156.53 | 169.42 | 155.65 | 176.11 | 162.39 | 174.83 | 161.84 | |
| 19~22 | 173.81 | 160.84 | 171.63 | 159.48 | 176.12 | 164.42 | 174.21 | 162.98 | |
这两个省份,19~22岁(大学)都比17~18岁(高三)高了不少。各个方面的理由都无法成立:
- 就算男生在17、18岁后还能长高,女生在这之后能长高的空间已经微乎其微,而像这里面长高2~3厘米更是天方夜谭。
- 大学生的家庭条件比高中生优越是有可能的,但是根据全国平均的数据,大学生最多比高中生高1厘米,也无法解释如此大的差距。
- 随机误差导致这个现象的可能性也极低。19~22岁合并的样本量已经有400人,17、18岁也各有150人,t检验的结果表示大部分组别都有极其显著的差别。并且,某一年份这两个省份出现这个现象,或许可以理解,连续两次调研都这样,是不能用随机解释的。
- 大学生中存在外地省籍学生。重庆和黑龙江的大学点校分别是重庆师范大学,哈尔滨师范大学、哈尔滨理工大学,这几所省属院校中本省籍数量都能接近或超过50%。黑龙江本身就是较身高较高的省份,外地学生不拉低就不错了。而重庆,以2014年城市男生为例,大学比高三高了5厘米,如果50%是外地生源的话,那么这些外地生源的平均身高会接近179厘米,这样的地方在中国是找不到的。
- 更为让人怀疑的是,2000、2005年黑龙江大学样本均未出现如此的偏高。
我找不到任何理由来解释。我个人的推测是,重庆、黑龙江两地在大学调研的实施过程中存在一定的问题。7~18岁我们还可以通过不同年龄组交叉验证数据的真实、准确性,但是19~22岁年龄组基本无从下手。我的建议是在理清数据的问题之前,不再使用重庆、黑龙江的大学数据。