4.4 分布形态
只用集中趋势和离散程度来分析数据还不够准确和全面,还要分析数据的分布形态。数据的分布形态可以从分布的对称程度和分布的高低来描述。对前者的描述叫偏度,对后者的描述叫峰度。
4.4.1 偏度
偏度指数据分布不对称的方向和程度。偏态分布是与正态分布相对而言的。偏态分布又可分为正偏态分布和负偏态分布两种类型。如果频数分布的集中位置偏向数值小的一侧,分布图高峰向左偏移,长尾向右侧延伸,就称为正偏态分布,也称右偏态分布;同样的,如果频数分布的集中位置偏向数值大的一侧,分布图高峰向右偏移,长尾向左延伸,则成为负偏态分布,也称左偏态分布。偏态分布的两种类型如图4-62所示。
图4-62 偏态分布的两种类型
在一个正态分布中,平均数、中数、众数三者相等,在数轴中完全重合。在描述正态分布时,只需报告平均数即可。在正偏态分布中,在数轴上,众数<中数<平均数,平均数在最右边。在负偏态分布中,在数轴上,平均数<中数<众数,平均数在最左边。在偏态分布中,中数把分布下的面积分成两等份的点值上,平均数永远位于尾端,如图4-63所示。
图4-63 偏态分布中3个集中量的关系
显然,从平均数、中数、众数三者的关系只能大致地推断一个分布的对称与否及不对称的方向,不对称的程度如何度量呢?在统计学中,常用偏斜度、皮尔逊偏度系数、矩偏度系数等来衡量偏度。
1.偏斜度
偏斜度(Skewness)是对统计数据分布偏斜方向及程度的度量。在偏态分布中,当偏斜度为正值时,分布正偏,即众数位于算术平均数的左侧;当偏斜度为负值时,分布负偏,即众数位于算术平均数的右侧。可以利用众数、中数和平均数之间的关系判断分布是左偏态还是右偏态,但要度量分布偏斜的程度,就需要计算偏斜度了。
设一组数据为X1,X2,…,Xn,样本量为n,偏斜度的计算公式为
如果原始数据被分为k组,各组的组中值分别用X1,X2,…,Xk表示,各组变量值出现的频数分别用f1,f2,…,fk表示,样本量为n,则偏斜度的计算公式为
对于未分组数据,Excel提供了SKEW函数计算偏斜度。
例4-28 在文件“第4章统计量.xlsx”的“分布形态”工作表中,有某年级5个班250人的政治成绩表及频数分布表,如图4-64所示(隐藏了部分行),如何分别按原始成绩和频数分布表计算偏斜度?
解题思路:在Excel中,对于未分组数据,可以直接使用SKEW函数计算偏斜度或使用定义的公式计算偏斜度。对于分组数据,则只能使用推演公式计算偏斜度。
解题过程:建立统计表,输入公式。
(1)建立统计表。建立一个“两类数据的偏斜度、皮尔逊偏度系数”统计表(包括后面将要介绍到的皮尔逊偏度系数),如图4-65所示。
图4-64 政治成绩表及频数分布表
图4-65 两类数据的偏斜度、皮尔逊偏度系数统计表
(2)输入公式。
在L3单元格输入公式“=AVERAGE(C3:C252)”。
在M3单元格输入公式“=SUMPRODUCT(F3:F10,H3:H10)/SUM(H3:H10)”。
在L4单元格输入公式“=STDEV.S(C3:C252)”。
在M4单元格输入公式“=SQRT(SUMPRODUCT(POWER(F3:F10-SUMPRODUCT(F3:F10,H3:H10)/SUM(H3:H10),2),H3:H10)/(I10-1))”。
在L6单元格输入数组公式“=SKEW(C3:C252)”或“{=SUM(((C3:C252-L3)/L4)^3)*(I10/(I10-1)/(I10-2))}”。
在M6单元格输入公式“=SUMPRODUCT(((F3:F10-M3)/M4)^3,H3:H10)*(I10/(I10-1)/(I10-2))”。
计算结果如图4-66所示。
图4-66 两类数据偏斜度的计算结果
从表中可以看出,偏斜度为负值,超过-0.3,这组原始数据呈现一定负偏态,高分段学生较多。以H3:H10区域的各组人数为源数据,插入“带平滑线和数据标记的散点图”,可以比较明显地看出数据呈现负偏态,如图4-67所示。
图4-67 人数的负偏态
【函数公式解析】
在L6单元格公式中,SKEW函数返回分布的偏斜度。具体语法为:
SKEW(number1,[number2],…)
number1,[number2],…:number1是必需的,后续数字是可选的。用于计算偏斜度的1~255个参数。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。参数可以是数字或者是包含数字的名称、数组或引用。如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内。
备选公式是按偏斜度公式计算的。
2.皮尔逊偏度系数
皮尔逊(Pearson)偏度系数以平均值与中位数或众数之差再与标准差之比来衡量偏斜的程度,用SK表示。这是根据众数、中位数与均值各自的性质,通过比较众数或中位数与均值占比来衡量偏斜度的。其计算公式为
式中, 为均值;Md为中位数;Mo为众数。偏度系数小于0,平均数在众数之左,是一种左偏的分布,又称为负偏态。偏度系数大于0,均值在众数之右,是一种右偏的分布,又称为正偏态。
例4-29 在例4-28的基础上,分别按原始成绩和频数分布表计算皮尔逊偏度系数。
解题思路:由于分组数据的众数为估计值,因此本例利用中位数来计算皮尔逊偏度系数。所需平均值、中位数、标准差均可以用前面介绍的方法获得。
解题过程:由于在例4-24已建立统计表,这里直接在表中输入公式。
在L5单元格输入公式“=MEDIAN(C3:C252)”。
在M5单元格输入公式“=81+(123-I6)/(I7-I6)*5”。
在L7单元格输入公式“=(L3-L5)/L4”。
将L7单元格的公式向右填充到M7单元格。
计算结果如图4-68所示。
图4-68 两类数据皮尔逊偏度系数的计算结果
3.矩偏度系数
矩也称为动差。在统计学中,未分组变量和分组变量的k阶样本中心矩的公式分别为:
当k=0时,为零阶中心矩。
当k=1时,为一阶中心矩,用于表示数据分布的差异度。因为,所以在实 际应用中,一般不取其代数和,而取绝对值和,这就是平均差。
当k=2时,为二阶中心矩,用于表示数据的离中趋势,也就是方差。方差的平方根就是标准差,是应用最为广泛的一种差异量数。
当k=3时,为三阶中心矩,用于表示一个分布的偏斜度或偏态性。
当k=4时,为四阶中心矩,用于表示一个分布的峰度或峰态性。
矩偏度系数是以变量的三阶中心动差除以标准差三次方,来衡量一个分布的不对称程度或偏斜程度的指标。也就是说,三阶中心动差是以标准差为单位的系数。一个样本未分组变量和分组变量的矩偏度系数公式为:
当α>0时,为正偏态;当α<0时,为负偏态;当α=0时,为正态分布,如图4-69所示。
例4-30 在例4-28的基础上,分别按原始成绩和频数分布表计算矩偏度系数。
解题思路:在Excel中,对于未分组数据和分组数据,都可以按公式计算矩偏度系数。
解题过程:建立统计表,输入公式。
(1)建立统计表。建立一个“两类数据的矩偏度系数、矩峰度系数”统计表(包含4.4.2节将要介绍到的矩峰度系数),如图4-70所示。
图4-69 α值决定分布形态
图4-70 两类数据的矩偏度系数、矩峰度系数表
(2)输入公式。
在L11单元格输入公式“=SUM($H$3:$H$10)-1”。
在M11单元格输入公式“=L11”。
在L12单元格输入公式“=L3”。
在M12单元格输入公式“=M3”。
在L13单元格输入公式“{=SUM((C3:C252-L12)^3)/L11/(SUM((C3:C252-L12)^2)/L11)^3}”。
在M13单元格输入公式“{=SUM(H3:H10*(F3:F10-M12)^3)/M11/(SUM((F3:F10-M12)^2*H3:H10)/M11)^3}”。
计算结果如图4-71所示。
图4-71 两类数据的矩偏度系数的计算结果
4.4.2 峰度
峰度是指数据分布图形的尖峭程度或峰凸程度。以正态分布为标准,如果一个分布比正态分布更高更瘦,则称为高峰态;如果一个分布比正态分布更矮更胖,则称为低峰态。如图4-72所示。
1.峰值
峰值是以变量的四阶中心动差除以标准差的四次方,并将结果再减去3,用来衡量频数分布的集中程度,也是衡量分布曲线相对尖锐度或平坦度的指标。在统计学中,未分组变量和分组变量的k阶样本中心矩的公式分别为:
图4-72 三类峰态
峰值指标是以正态分布为比较标准,正峰值表示一个频数分布比正态分布更集中,分布呈尖峰状态,平均数代表性更高;负峰值表示一个频数分布比正态分布更分散,分布呈平坦峰,平均数代表性较低。
对于未分组数据,Excel提供了KURT函数计算偏斜度。
例4-31 在例4-28的基础上,分别按原始成绩和频数分布表峰值。
解题思路:在Excel中,对于未分组数据,可以直接使用KURT函数计算峰值或使用公式进行计算峰值。对于分组数据,则只能使用公式计算峰值。
解题过程:建立统计表,输入公式。
(1)建立统计表。建立一个“两类数据的峰值”统计表,如图4-73所示。
(2)输入公式。
所需平均值、标准差可以直接使用前面例子的计算结果。
在P3单元格输入公式“=L3”。将P3单元格的公式向右向下填充到Q4单元格。
在P5单元格输入公式“=KURT(C3:C252)”或“{=I10*(I10+1)/(I10-1)/(I10-2)/(I10-3)*(SUM(((C3:C252-P3)/P4)^4))-(3*(I10-1)^2/(I10-2)/(I10-3))}”。
在Q5单元格输入数组公式“{=I10*(I10+1)/(I10-1)/(I10-2)/(I10-3)*(SUM(((F3:F10-Q3)/P4)^4*H3:H10))-(3*(I10-1)^2/(I10-2)/(I10-3))}”。
计算结果如图4-74所示(隐藏了部分行列)。
图4-73 两类数据的峰值表
图4-74 两类数据峰值的计算结果
从图4-74中可以看出,峰值虽然为负值,但接近0,表明这个分布基本呈正态分布。
【函数公式解析】
在P5单元格的公式中,KURT函数返回一组数据的峰值。具体语法为:
KURT(number1,[number2],…)
number1,[number2],…:number1是必需的,后续数字是可选的。用于计算峰值的1~255个数。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。参数可以是数字或者是包含数字的名称、数组或引用。如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内。
备选公式是按峰值公式计算的。
2.矩峰度系数
矩峰度系数表示四阶中心动差与标准差四次方的比值。未分组变量和分组变量的矩偏度系数公式为:
当β>0时,为高峰态;当β<0时,为低峰态;当β=0时,为正态分布,如图4-75所示。
例4-32 在例4-28的基础上,分别按原始成绩和频数分布表计算矩峰度系数。
解题思路:在Excel中,对于未分组数据和分组数据,都可以按公式计算。
解题过程:由于例4-28中已建立统计表,这里直接在表中输入公式。
图4-75 β值决定分布形态
在L14单元格公式输入数组公式“{=SUM((C3:C252-L12)^4)/L11/(SUM((C3:C252-L12)^2)/L11)^4}”。
在M14单元格公式输入数组公式“{=SUM((F3:F10-M12)^4*H3:H10)/M11/(SUM((F3:F10-M12)^2*H3:H10)/M11)^4}”。
计算结果如图4-76所示。
图4-76 两类数据的矩峰度系数的计算结果
从图4-76中可以看出,矩峰度系数虽然为正值,但极其接近0,表明这个分布基本呈正态分布。
4.4.3 分类的偏斜度和峰值
前面在介绍偏度和峰度时,所举例子均没有分类计算偏度和峰度。实际上,这批原始数据可能是有类别的。下面介绍分类计算偏度和峰度的技巧。
例4-33 在例4-28的基础上,如何按班计算偏斜度和峰值?
解题思路:在Excel中,使用IF函数的条件判断功能结合其他函数,可以分类计算偏斜度和峰值。
解题过程:建立统计表,输入公式。
(1)建立统计表。建立一个“未分组数据分类的偏斜度和峰值”统计表,如图4-77所示。
(2)输入公式。
在T3单元格输入数组公式“{=SKEW(IF($B$3:$B$252=S3,$C$3:$C$252))}”。
在U3单元格输入数组公式“{=KURT(IF($B$3:$B$252=S3,$C$3:$C$252))}”。
将T3:U3区域的公式向下填充到U7单元格。
图4-77 未分组数据分类的偏斜度和峰值统计表
计算结果如图4-78所示。
图4-78 未分组数据分类的偏斜度和峰值的计算结果