查看“漫谈生物统计”的源代码
←
漫谈生物统计
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
== 生物统计漫谈 == === 写在前面: === 生物统计本身是生物中和统计学相结合的学科,所以很多都要涉及到一些数学的推导,感兴趣的同学可以自行计算,但不会的也没关系,我们手把手教你。当然如果只是应对考试的话,实在理解不了也没关系,能够把过程和答案写出来也够了。 === part.I 获取数据 === 众所周知,苟苟身高只有<s>1.68m</s>1.86m,这个数字让他很自卑。同样的想法也在瓜瓜脑海中盘旋,他很想知道这个身高在同龄人里算高还是算矮,于是他说干就干,打算制定计划来探究同学们的身高与自己的差异。<br> ==== 1 调查 ==== 瓜瓜需要获得同学们的身高数值,他会采用什么方法呢? ===== 1.1 普查 ===== 瓜瓜首先打算面向全省所有17岁高中生进行身高调研。毕竟如果能得到所有人的身高的话,就可以更好地将自己的身高进行比较,这样几乎没有任何误差。经查阅教育部数据,湖南17岁高中生大约有400000人。这个数好像有一点点大,可能不方便调查。瓜瓜经过深思熟虑,考虑到可能很难通过自己的力量收集到全省中学生的数据,也不想浪费公众资源,只好忍痛放弃了这样宏伟的计划了。 ===== 1.2 抽样调查 ===== 如果不方便大范围的调查,那么调查学校里同学的数据总会方便一些吧。但瓜瓜发现即使这样,全年级500人(10个班每班50人)好像也并不容易获得完整的数据,于是他换了一种方案:在学校里随机抽取50名同学,测量他们的身高(在这里我们只希望学校里没有鲸尾这样的同学)。为使数据最能代表整体水品,他特地准备了以下4种方法:<br> (1)简单随机抽样<br> 将500名同学的学号输入计算机,通过随机数抽取50名幸运的同学进行测量。<br> 优点:简单易行。<br> 缺点:考虑到以后可能需要研究数据的分布,简单随机抽样获得的数据较为分散则不利于研究。<br> (2)分层抽样<br> 考虑到年级上有1个体育班,其同学身高较高,而2个文科班中同学整体身高水平较低,剩下还有7个理科班。瓜瓜打算按照理科班:文科班:体育班=7:2:1的比例在各层内随机抽样测量。<br> 优点:观测值变异度较小,误差小于简单随机抽样;分层方法较为灵活。<br> 缺点:若分层不当造成层内变异大,层间均数相近,则分层就失去了意义。<br> (3)整群抽样<br> 由于在班上申请让同学参加调查需要得到班主任的批准,为了方便统一参加,瓜瓜打算在10个班中随机抽取一个班的所有同学来参加调查。<br> 优点:实施方便,节约人力物力财力。<br> 缺点:不同群间差异较大,可能会导致误差大于简单随机抽样。(比如抽到了体育班)<br> (4)系统抽样<br> 直接测量学号(从1到500)以1结尾的编号的同学身高。 优点:较为便捷<br> 缺点:编号中可能暗藏混杂因素,使数据结果具有偏差(比如学号以一结尾的男生更多)<br> ==== 2 统计值 ==== 下面是瓜瓜调查的50名同学的身高数值:(单位:cm)<br> 179.19, 174.93, 173.50, 185.00, 179.98, 164.06, 179.55, 163.14, 180.10, 160.80, 168.17, 156.03, 157.21, 150.78, 180.18, 163.46, 177.82, 183.44, 160.16, 187.14, 169.82, 167.12, 159.18, 168.98, 177.12, 164.82, 175.55, 167.11, 180.30, 161.03, 153.36, 166.92, 169.42, 177.04, 173.05, 165.60, 190.07, 174.99, 173.16, 146.42, 172.97, 184.41, 172.86, 162.08, 178.21, 172.19, 167.20, 170.72, 175.45, 163.13。<br> 啊……😨怎么这么多,看的头晕眼花了😵<br> 主播主播,看这么多数据还是太麻烦了,有没有什么又简单又综合的方法能进行数据的整理?<br> 有的兄弟有的,像这样的统计值还有很多个,我们下面一一来介绍它们的特点和用法。 ===== 2.1 集中趋势——平均值、中位数和众数 ===== (1)平均值<br> 顾名思义,就是能够体现数据的平均水平。根据计算公式:<br> 平均值=所有数值相加÷数据个数<br> 得到平均值为170.50cm。啊!竟然没有瓜瓜高(瓜瓜好开心)。但他又想到,因为平均值把每一个数据都用上了,自然无法避免极大或极小的异常值,如146.42这样的数,这就有可能使平均值并不能代表整体的身高水平(这是算数平均值,即把数据相加后除以总数;几何平均值是将数据相乘后开n次方,其中n为数据个数,这样可以减少极端值对数据的影响)。想到这,瓜瓜又有些失落,不过很幸运的是,我们还有其他的数值能够代表整体的水平,比如———<br> (2)中位数<br> 将数据从小到大进行排列,排在最中间的数就是中位数;如果最中间恰好是两个数,则取这两个数的平均值作为整体的中位数。因此我们知道,在上面的数据里面身高的中位数是(172.19+170.72)÷2=171.455(cm)。中位数的好处就是不受到极端值的影响,因为它展示的是较为中间的水平。但可惜的是它只能用于可排序的数据,如果是分类型的数据它就无能为力了。<br> (3)众数<br> 在一堆数据里面出现次数最多的那个(或那些)数据就是这些数据的众数。它和中位数不同,一组数据的中位数只能有一个,但众数可以有多个,也可以没有众数(比如我们上面的数据,都只出现了一次)。这也不易受到极端值的影响,但他它和中位数都有一个缺陷,就是因为没有用到全部的数据,导致这个值包含的信息很少。
返回
漫谈生物统计
。
导航菜单
个人工具
创建账号
登录
命名空间
页面
讨论
大陆简体
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息