茎叶图(茎叶图怎么看)全程干货
直方图就像一张全家福的合影。在图里我们能看到每个值与所有相关值的比较。但是,如果拍照时有人不看镜头,或者有人被前面的人挡住了,这张全家福就不太好了。那么,我们如何提高全家福照片的质量呢?
给数据“拍照”每个数据就像是一个像素点,要了解这些数据背后的信息,我们常常用两个不同的图表来呈现,时间序列图和直方图时间序列图可以显示数值随时间的变化情况,好比是在播放数值的电影相比之下,直方图就像一张全家福的合影。
在图里我们能看到每个值与所有相关值的比较但是,如果拍照时有人不看镜头,或者有人被前面的人挡住了,这张全家福就不太好了那么,我们如何提高全家福照片的质量呢?通过一个例子来回答这个问题我们有一个热线电话接听中心,选取了某天上午10点到11点期间热线接听的108个电话的通话时长。
这些电话是由22个热线接听员工并行处理的,因此这些数据没有唯一的时间序列,没办法整体画出时间序列图,于是我们考虑使用直方图
图1:通话时长统计当我们把数据输入Minitab后,可以得到一个类似于图2的直方图。这个直方图显示了每个区间内的数据是如何“堆积”起来的,这些数据从形状上看上去像一个稍微不平衡的土墩。
图2:通话时长直方图创建一个有用的柱状图的需要在数据的“堆积”量和水平轴的区间大小的选择之间取得平衡为了做出这个选择,用茎叶图做分析茎叶图茎叶图是组织数据的一种方法,介于数据表格和直方图之间它将观察结果分成左右两部分,左边的部分将构成我们的地块的茎,而右边的部分将是茎上的叶子。
从图1中我们可以看到这些数据被记录到小数点后一位,从图2中我们可以看到,通话时长可以达到24.9分钟所以这给了我们两个选择来分割这些数值我们可以使用十位来进行拆分,也可以使用小数位进行拆分如果我们用每个数字的十位数来定义我们的左手部分,那么我们的茎只有三个值:0代表0.0到9.9的值,1代表10.0到19.9的值,2代表20.0到29.9的值。
由于三个茎值对于一个好的茎叶图来说太少了,我们考虑使用小数点左边的值来定义每个数字的左边部分。现在我们需要25个值,范围从0到24,如图3所示。
图3:茎叶图因为我们是从左到右写数字的,所以通常以垂直格式创建茎叶图比较容易因此,我们将数轴旋转90度,如图4(a)所示接下来,我们读取数据并将每个值的右侧部分作为“叶”放在茎上第一个值是10.0,所以我们在茎的10个位置旁边放置一个“0”叶来标记这个值。
向下移动图1的第一列,第二个值是9.1,因此在茎的9位置旁边放置一个“1”叶来标记该值前两个值显示在图4(a)中
图4:创建茎叶图图1第一列中接下来的两个值分别是13.2和10.9,这两片叶子的位置如图4(b)所示。继续以这种方式,将108个值的其余部分都填上去,最后获得图4(c)中所示的图。
图5:通话时长的茎叶图这个茎叶图是表格和图形的完美结合它保留每个值,按顺序排列,并显示直方图的形状通过对图5的观察,我们发现4分钟左右的间隔实际上超过了2分钟(从3.2分钟到5.4分钟)对这种差距的可能解释是,任何3分钟之内处理不了的的通话都比较复杂,以至于需要超过5分钟才能完成。
对于持续时间超过5分钟的通话,有两个峰值,一个集中在6分钟左右,另一个集中在10分钟左右,8分钟时有一个明显的山谷因此,这些数据的背后至少有三种不同的情况,茎叶图把这些信息都非常简单直接的显示了出来有用的直方图
通过绘制茎叶图,我们现在知道这些数据中的细节以1分钟的间隔可见使用更大的间隔(如图2中的5分钟间隔)将掩盖很多关键细节将通话长度四舍五入到最接近的分钟,我们得到了图6中的柱状图,其中3、6和10分钟的数据特征很明显。
图6:有用的通话时长直方图直方图能把数据组织起来当数据具有时序序列时,直方图是时间序列图和I-MR图的补充当数据没有已知的时间顺序时,直方图仍然能显示所有数据之间的相关性当我们使用合适的数值区间,就能捕捉数据中很多有趣的细节。
这就像一张全家福照片,照片中每个人都可以被看到,所有人都微笑着看着相机因此,得到有用的直方图的主要技巧是使用合适的数据区间来显示有趣的细节好在我们可以用Minitab等辅助工具,在工具里你可以不断调整区间,直到得到最清晰的“全家福”照片。
一旦有了适当的区间间隔,我们就可以在直方图上加上规格限、控制限来讲述直方图背后的数据故事,很多人还会在直方图上叠加一些概率模型,试图展示更多统计信息,但这种做法有没有意义?直方图叠加概率模型图7显示了一个示例。
在通话时长直方图的基础上叠加了正态曲线
图7:叠加了概率模型的通话时长直方图概率模型不会生成任何数据,仅仅是对现实的数学近似在最坏的情况下,概率模型可能会完全误导你在直方图中,我们清楚地看到有三个不同的单峰分布在一个三模态直方图上,直方图中的这三个凸起是客观事实,但是概率模型中忽略了这个事实,强迫性地做了一些一厢情愿的估计。
叠加概率曲线带来的第二个问题与我们看待事物的方式有关:我们的眼睛自然倾向于跟随平滑的曲线因此加上那条曲线后,我们的注意力会从4分钟和8分钟的间隙中转移开相比之下,在图6中,我们的眼睛倾向于跟踪条形图的顶部,这使得间隙更容易识别。
因此,叠加的概率曲线实际上会分散注意力,干扰甚至会扭曲直方图的信息总之,叠加了曲线后会使直方图变得模糊、分散人的注意力并使其复杂化,应该严格避免从直方图到控制图通过在图1中创建通话时长的直方图,我们对整体有了一些了解。
但这一个小时的数据是其他时间的数据的典型代表吗?我们能从这一小时推断出整个过程的特征吗?要回答这些问题,我们可以在I-MR图表上绘制每小时的平均通话长度假设过去12小时的平均通话时间为:9.29、9.55、9.84、8.84、8.95、9.21、10.30、9.39、8.40、8.29、8.50和7.68分钟。
这12个值是图8中I-MR图的前12个点,而图1中的数据显示为图8中最后一点
图8:每小时平均通话时长I-MR图从这个图表中我们能了解到:平均通话时间为9.04分钟,因此要求接线员平均每小时接听电话超过6.7次是不合理的22个接线员平均每小时可处理146个电话,要接听更多的电话的话就需要更多的人。
总结有用的直方图的区间间隔要:1. 便于读者理解2. 足够窄,窄到足以揭示有趣的细节3. 足够宽,宽到可以显示数据是如何“堆积”起来的因此,创建一个有用的直方图是一种平衡,要在整体数据图像和图像的细节的之间找到适当的平衡。
如果数据包含的值少于20或30,则可以使用简单的点图当数据由上百个值组成时,进行数据分组通常会是一个更好的选择以前,我们往往用一堆详细的公式来确定直方图水平轴的间隔,但是现在我们因为有了类似Minitab这样的工具,更容易尝试不同大小的间隔,找到最佳选择。
最后,尽量不要在直方图上生硬地加上所谓的概率模型,我们想要的是数据“全家福”的原图,而不是用概率模型“PS”过的。关注“质量优势”,关注原创质量文章
- 标签:
- 编辑:李松一
- 相关文章
-
茎叶图(茎叶图怎么看)全程干货
在五光十色的自然界中,有些植物的茎并不是人们通常所见的样子,而是千奇百怪,妙趣横生。向日葵是一年生草本植物,高可达3米以上,茎很粗,…
-
悉尼歌剧院图片(悉尼歌剧院图片高清)越早知道越好
风靡60年的中国经典歌剧《洪湖赤卫队》于11月4日晚在悉尼歌剧院成功上演。
- 成长的作文(成长的作文600字)干货满满
- 前赤壁赋原文及翻译(前赤壁赋原文及翻译一句一翻译)太疯狂了
- 爸爸妈妈我想对你说(爸爸妈妈我想对你说作文600字)学到了吗
- 爸爸妈妈我想对你说(爸爸妈妈我想对你说作文600字)一看就会
- 会计实习报告3000字(会计实习报告5000字)速看