简谈几种“箱线图绘制”的描述

2022-09-13

由于我们常用箱线图、标准分数 (z分数) 来识别异常值, 当然, 也可用散点图、残差图来识别, 对于同一个问题, 假如我们用来识别异常值的工具—“箱线图”不统一, 那么, 识别出来异常值也就会不同, 接下来的处理方法也会不同:若异常值是记录错误, 在做统计分析之前应将其改正过来;若异常值不属于这个数据集, 将其去掉即可;异常值还可能确实是非正常的数据值, 记录也正确, 也属于这个数据集, 这时就该保留这个异常值。由此可见, 正确识别异常值, 对正确进行数据分析得出科学合理的结论非常重要。

但在教学中, 在上统计学的“箱线图绘制”时, 笔者查阅了一些资料, 发现几本书上对“箱线图绘制”的描述有些差异, 下面我们一一来看。

第一种描述:由高等教育出版社出版、吴志高主编的《统计与概率》第32~33页:“例2.6.1有一个样本容量为50的样本如下:……, 用所给的样本数据作箱线图。第一步, ……;第二步, 在数轴下方作一平行于数轴的矩形, 其长为2倍四分位差2Q (该书定义四分位差见第31页Q=0.5* (Q3-Q1) , 和其他统计书上定义的四分位差不同, 如由复旦大学出版社出版、李洁明、祁新娥编著的《统计学原理》第127页:四分位差=Q3-Q1) , 两条端线分别位于两个折点的位置, 即Q1与Q3处, 适当选取矩形的宽度, ……第三步从矩形两端向外作平行于数轴的直线, 在作出的直线上, 由矩形两端向外各一步长H=2Q=1倍 (Q3-Q1) 处作两条端线, ……”。由此, 我们不难得出如下的箱线图:

但值得一提的是, 该书中第33页倒数第三行提到;“有人建议将步长值取为H=3Q=1.5* (Q3-Q1) ……”, 我们看完后面会明白, 这种取法才是大多数书上采用的方法。

第二种描述:再看由西南财经大学出版社出版、肖战峰主编的《统计学基础》第68~69页:“简单箱线图, 其绘制方法是:“首先, 找出数据的5个特征值……, 然后连接两个四分位数 (Q1、Q3) 画出箱子, 再将两个极值点与箱子相连接。”按照这一叙述, 画出的箱线图如下:

第三种描述:由中国人民大学出版社出版、贾俊平等编著的《统计学》 (第四版) 第67页:“箱线图的绘制方法是:……”描述方法及结果几乎与第二种一样。

第四种描述:由清华大学出版社出版、 (美) David R Anderson等编著、张慧卉等译《现代商务统计Excel版》 (第二版) 第107页:“绘制箱形图的步骤如下:1.画一只箱子, 箱子的两端分别位于Q1 (第一个四分位数) 与Q3 (第三个四分位数) ;2在箱子的中间处画一条垂线, 表示中位数;3.利用四分位数间距IQR=Q3-Q1确定上下限。箱形图的上下限分别比Q1低1.5倍IQR和比Q3高1.5倍IQR的位置上, 上下限以外的数据认为是异常值;4.箱形图中的虚线称为胡须线。胡须线从箱子两端开始分别延伸至第3步中计算的上下限内的最大值与最小值;5.最后, 用星号 (*) 把每个异常值的位置标出来。”根据这样的描述, 得到的箱形图如下图:

下面是21家药物公司的年度销售数据 (单位:百万美元) :

现假设上述141.38亿美元被输成411.38亿美元, 用箱线图能否识别出该异常值并纠正数据的输入错误吗?

第一步, 把上述数据按升序排序:

所以, Xmin=608, Xmax=14138 (由于输入错误, Xmax=41138) , Q1=1861, Q3=8357, Me=4019

第二步, 画箱线图:

第三步, 从第一种、第四种描述下的箱线图中我们可以看出:数据41138应该是异常值 (与实际情况相吻合) , 应该检查并更正数据, 再进行数据的统计分析。而从第二种、第三种描述下的箱线图中, 41138不是异常值 (与实际情况不吻合) , 这时, 还不可慌忙进行数据的统计分析, 应该把该数据集转化为标准分数 (z分数) , 41138的标准分数为4, 把标准分数大于3而小于-3的也归为异常值, 这时应该检查并更正数据, 再进行数据的统计分析。

从上面例子中我们不难发现, 第四种描述下的箱线图才是最完美的。但实际情况是, 很多老师发现两本教材对同一事物的描述几乎完全一样 (认为不可能错成一样的) , 毫无疑问都会选择第二种、第三种描述来进行教学。要想避免这样的情况, 只有博览群书, 取其精华, 不断地提高我们的教学质量。

摘要:本文从四种不同版本的统计教材对“箱线图绘制”的描述中加以比较, 得出优劣, 最后用例子来进行说明比较。

关键词:箱线图,异常值

参考文献

[1] 吴志高.统计与概率[M].高等教育出版社.[1]吴志高.统计与概率[M].高等教育出版社.

[2] 肖战峰.统计学基础[M].西南财经大学出版社.[2]肖战峰.统计学基础[M].西南财经大学出版社.

[3] 贾俊平.统计学 (第四版) [M].中国人民大学出版社.[3]贾俊平.统计学 (第四版) [M].中国人民大学出版社.

[4] (美) David R.Anderson等编著, 张慧卉等译现代商务统计Excel版 (第二版) [M].清华大学出版社.[4] (美) David R.Anderson等编著, 张慧卉等译现代商务统计Excel版 (第二版) [M].清华大学出版社.

[5] 李洁明, 祁新娥.统计学原理[M].复旦大学出版社.[5]李洁明, 祁新娥.统计学原理[M].复旦大学出版社.

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:塔里木英买处理厂余热回收利用的可行性分析下一篇:饮食干预治疗在社区糖尿病防治中的效果