第12讲把握不均衡
数据的分布存在不均衡的情况,能够反映这种不均衡程度的指标就是标准差。另外,对某个值的评价,会随着不均衡程度的不同而变化。那么,标准差是怎么计算的呢?应该如何去应用呢?
用于描述不均衡的指标是标准差。这是用来反映数据整体的分布如何分散或者如何集中的值。首先说明一下它是怎么计算的。
假设我们对某项知识进行问答测试后,得出图1和图2的结果。
图1的平均分是60分,最低分是40分,最高分是80分。
图2的平均分是60分,最低分是20分,最高分是100分。
图1的数据整体分布,在60分的位置出现峰值,数据都分布在靠近60分的地方。虽然图2的平均分也是60分,数据的峰值也在60分附近,但从数据均衡性的角度来看,与图1相比,其山脚位置分布更加广泛。用数值来表现这种分布的差异,就是标准差。
图1的标准差计算如下。
离散程度(与平均数之差的平方的和)
=(-20)×(-20)×1
+(-10)×(-10)×4
+(0)×(0)×6
+(10)×(10)×4
+(20)×(20)×1
=1600
方差(除以数据个数)
=1600÷(1+4+6+4+1)
=100
标准差(计算平方根)
=10
同样地,图2的标准差计算如下。
离散程度(与平均数之差的平方的和)
=(-40)×(-40)×1
+(-30)×(-30)×1
+(-20)×(-20)×1
+(-10)×(-10)×3
+(0)×(0)×4
+(10)×(10)×3
+(20)×(20)×1
+(30)×(30)×1
+(40)×(40)×1
=6400
方差(除以数据个数)
=6400÷(1+1+1+3+4+3+1+1+1)
=400
标准差(计算方根)
=20
综上所述: