漫谈生物统计
生物统计漫谈
写在前面:
生物统计本身是生物中和统计学相结合的学科,所以很多都要涉及到一些数学的推导,感兴趣的同学可以自行计算,但不会的也没关系,我们手把手教你。当然如果只是应对考试的话,实在理解不了也没关系,能够把过程和答案写出来也够了。
part.I 获取数据
众所周知,苟苟身高只有1.68m1.86m,这个数字让他很自卑。同样的想法也在瓜瓜脑海中盘旋,他很想知道这个身高在同龄人里算高还是算矮,于是他说干就干,打算制定计划来探究同学们的身高与自己的差异。
1 调查
瓜瓜需要获得同学们的身高数值,他会采用什么方法呢?
1.1 普查
瓜瓜首先打算面向全省所有17岁高中生进行身高调研。毕竟如果能得到所有人的身高的话,就可以更好地将自己的身高进行比较,这样几乎没有任何误差。经查阅教育部数据,湖南17岁高中生大约有400000人。这个数好像有一点点大,可能不方便调查。瓜瓜经过深思熟虑,考虑到可能很难通过自己的力量收集到全省中学生的数据,也不想浪费公众资源,只好忍痛放弃了这样宏伟的计划了。
1.2 抽样调查
如果不方便大范围的调查,那么调查学校里同学的数据总会方便一些吧。但瓜瓜发现即使这样,全年级500人(10个班每班50人)好像也并不容易获得完整的数据,于是他换了一种方案:在学校里随机抽取50名同学,测量他们的身高(在这里我们只希望学校里没有鲸尾这样的同学)。为使数据最能代表整体水品,他特地准备了以下4种方法:
(1)简单随机抽样
将500名同学的学号输入计算机,通过随机数抽取50名幸运的同学进行测量。
优点:简单易行。
缺点:考虑到以后可能需要研究数据的分布,简单随机抽样获得的数据较为分散则不利于研究。
(2)分层抽样
考虑到年级上有1个体育班,其同学身高较高,而2个文科班中同学整体身高水平较低,剩下还有7个理科班。瓜瓜打算按照理科班:文科班:体育班=7:2:1的比例在各层内随机抽样测量。
优点:观测值变异度较小,误差小于简单随机抽样;分层方法较为灵活。
缺点:若分层不当造成层内变异大,层间均数相近,则分层就失去了意义。
(3)整群抽样
由于在班上申请让同学参加调查需要得到班主任的批准,为了方便统一参加,瓜瓜打算在10个班中随机抽取一个班的所有同学来参加调查。
优点:实施方便,节约人力物力财力。
缺点:不同群间差异较大,可能会导致误差大于简单随机抽样。(比如抽到了体育班)
(4)系统抽样
直接测量学号(从1到500)以1结尾的编号的同学身高。
优点:较为便捷
缺点:编号中可能暗藏混杂因素,使数据结果具有偏差(比如学号以一结尾的男生更多)
2 统计值
下面是瓜瓜调查的50名同学的身高数值:(单位:cm)
179.19, 174.93, 173.50, 185.00, 179.98, 164.06, 179.55, 163.14, 180.10, 160.80,
168.17, 156.03, 157.21, 150.78, 180.18, 163.46, 177.82, 183.44, 160.16, 187.14,
169.82, 167.12, 159.18, 168.98, 177.12, 164.82, 175.55, 167.11, 180.30, 161.03,
153.36, 166.92, 169.42, 177.04, 173.05, 165.60, 190.07, 174.99, 173.16, 146.42,
172.97, 184.41, 172.86, 162.08, 178.21, 172.19, 167.20, 170.72, 175.45, 163.13。
啊……😨怎么这么多,看的头晕眼花了😵
主播主播,看这么多数据还是太麻烦了,有没有什么又简单又综合的方法能进行数据的整理?
有的兄弟有的,像这样的统计值还有很多个,我们下面一一来介绍它们的特点和用法。
2.1 集中趋势——平均值、中位数和众数
(1)平均值
顾名思义,就是能够体现数据的平均水平。根据计算公式:
平均值=所有数值相加÷数据个数
得到平均值为170.50cm。啊!竟然没有瓜瓜高(瓜瓜好开心)。但他又想到,因为平均值把每一个数据都用上了,自然无法避免极大或极小的异常值,如146.42这样的数,这就有可能使平均值并不能代表整体的身高水平(这是算数平均值,即把数据相加后除以总数;几何平均值是将数据相乘后开n次方,其中n为数据个数,这样可以减少极端值对数据的影响)。想到这,瓜瓜又有些失落,不过很幸运的是,我们还有其他的数值能够代表整体的水平,比如———
(2)中位数
将数据从小到大进行排列,排在最中间的数就是中位数;如果最中间恰好是两个数,则取这两个数的平均值作为整体的中位数。因此我们知道,在上面的数据里面身高的中位数是(172.19+170.72)÷2=171.455(cm)。中位数的好处就是不受到极端值的影响,因为它展示的是较为中间的水平。但可惜的是它只能用于可排序的数据,如果是分类型的数据它就无能为力了。
(3)众数
在一堆数据里面出现次数最多的那个(或那些)数据就是这些数据的众数。它和中位数不同,一组数据的中位数只能有一个,但众数可以有多个,也可以没有众数(比如我们上面的数据,都只出现了一次)。这也不易受到极端值的影响,但他它和中位数都有一个缺陷,就是因为没有用到全部的数据,导致这个值包含的信息很少。